Dell Unity: Lagringsprocessorer visas som omstart i användargränssnittet men inte i CLI och inga felaktiga lysdioder (kan korrigeras av användaren)
Summary: I den här artikeln förklarar vi varför Unisphere-användargränssnittet kan visa nedgraderade SP:er och starta om dem när de är i normalt läge.
Symptoms
Small Factor Pluggable (SFP) visas som saknad en gång i loggar och senare visas den som bra.
SFP-enheter är kända för att vara oupptäckta om de har lite damm eller inte är helt isatt i porten.
Det är en vanlig faktor för prestandaförsämring, eftersom det orsakar ständiga frånkopplingar, och kan till och med vara ansvarig som en långsam dräneringsanordning.
I Unisphere-användargränssnittet visas lagringsprocessorerna som omstart och i Degraded State vid "SYSTEM", > "Service", > "Service Tasks".
I en SSH-terminal med CLI är dock båda SP:erna i normalt läge.
Detta har hittills setts i Unity OE version 4.5.1.0.5.001.
Exempel:
service@CKMxxxxxxxx spa:~/user# svc_diag ======== Now executing basic state ======== * System Serial Number is: CKMxxxxxxx * System Model Number is: Unity 500 * System Friendly Host Name is: CKMxxxxxxxx * Current Software version: c4dev_PIE_3786R-4.5.1.0.5.001.1552025209-GNOSIS_RETAIL * Unisphere IP address(es): xx.xxx.xxx.xx xxxx::xxx:xxxx:xxxx:xxxx * SSH Enabled: true * FIPS mode: Disabled * Boot Mode: Normal Mode * Post Faults: 0x0000 * Backend Faults: 0x0000 * Boot Faults: 0x0000 * Rescue Reason: 0x0000 * Rescue reason for code 0x0000 - No faults detected. * SP Service Hint Code: <None>
Cause
Den här specifika situationen inträffade när nya I/O-moduler skulle installeras.
Incheckningen slutfördes inte på grund av en icke-optimal SFP, och därför inaktiverades hälsorelaterade åtgärder tillfälligt (liknande vad som händer under uppgraderingar).
Eftersom hälsoundersökningen var avaktiverad kunde systemet inte identifiera rätt status för lagringsprocessorerna och rapporterade en tidigare känd status, "rebooting".
Kontrollera att det här är samma problem genom att kontrollera följande loggar: /var/tmp/ptm/ptm.log/EMC/C4Core/log/c4_safe_ktrace.log
Detta kan ses live genom att köra kommandona på en SSH-terminal eller i Triaged Service Data Collection-loggar:
cat /var/tmp/ptm/ptm.log
Förväntade utdata:
=====================================Tasks===================================== 10:56 [ 16/22 ] Core reboot sp if required (local) 10 minutes Start at: Thu May 23 10:56:19 2019 Complete at: Thu May 23 10:56:19 2019 =============================================================================== 10:56 [ 17/22 ] Core start c4 (local) 5 minutes Start at: Thu May 23 10:56:19 2019 Task Manager was terminated unexpectedly with signal <TERM> .... <there might be a few extra lines here > .... Previous failure detected. Not auto-restarting.
less /EMC/C4Core/log/c4_safe_ktrace.log
Och leta efter SFP- eller mezzaninerelaterade evenemang.
Vi kan se att något gick fel när du installerade de nya I/O-modulerna:
c4_safe_ktrace INFO OBJ 3 RP:MEZZ(SP: 0, Slot: 0): fbe_base_env_send_resume_prom_read_async_cmd entry. c4_safe_ktrace INFO OBJ 3 RP:MEZZ(SP: 0, Slot: 0): Read async completed, workItem 0x7f2486432760, resumeStatus DEVICE_NOT_VALID_FOR_PLATFO c4_safe_ktrace INFO OBJ 3 100C0 : ModMgmt: CLEAR enclFaultLedReason Mezzanine RP Fault. <<<====== Fault detected in Root Port (RP) .......... c4_safe_ktrace INFO OBJ 3 100C0 : fbe_module_mgmt_check_module_state, SPB Mezzanine 0, state:ENABLED, substate:GOOD c4_safe_ktrace INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 0, state ENABLED, substate GOOD c4_safe_ktrace INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 1, state MISSING, substate MISS_SFP <<<=== SFP not detected c4_safe_ktrace INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 2, state ENABLED, substate GOOD c4_safe_ktrace INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 3, state ENABLED, substate GOOD c4_safe_ktrace INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 4, state ENABLED, substate GOOD c4_safe_ktrace INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 5, state ENABLED, substate GOOD
Resolution
Lös problemet genom att checka in I/O-modulerna igen, eftersom de ursprungligen misslyckades, med hjälp av kommandona nedan.
Not: Dessa kommandon kräver inte root, men kräver en felfri matris, så innan du kör, bekräfta att din matris är fullt fungerande, som sådan:
Kommando #1:
uemcli -no /sys/general healthcheck -output csv -detail
Exempel på utdata:
"Error code" "Warning: One or more asynchronous replication sessions, or one or more NAS Server or file system synchronous replication sessions, exist. This could cause problems during upgrade. Pause the replication sessions on the production array prior to starting the upgrade and resume them after completing the upgrade. [Warning Code: platform::check_replication_health_4]" "Warning: One or more NAS servers may not be in a healthy state. You can continue with the upgrade, but it is recommended that you record the error code and contact your service provider. [Warning Code: dm::check_nas_servers_health_3]" Operation completed successfully.
Obs! Det nämner "Upgrade" eftersom det är det kommando som används innan du utför NDU (Non-Disruptive Upgrades). Anledningen till att dessa meddelanden visas är dock att matrisen (båda SP:erna) måste startas om.
Kommando #2 kan också kräva en omstart, det är därför det är viktigt att den här hälsokontrollen passerar utan någon [felkod:].
[Varningar] kan ignoreras, men kommando #2-prompten är meddelandet
"Do you still want to continue," Och du kan ange "Ja". Dells support rekommenderar dock att du åtgärdar alla varningar och fel i hälsokontrollen innan du fortsätter.
#2 (Optimalt) - du kan gå till kommando #2
"Error code" Operation completed successfully.
Kommando #2:
svc_change_hw_config -e
Förväntade utdata:
service@CKMxxxxxxxx spa:~/user# svc_change_hw_config -e Checking if both SPs are in Normal mode...OK INFO: Beginning eSLIC or CNA Hardware Upgrade... WARNING: This operation will cause several reboots to occur on the Storage Processors. WARNING: Do NOT proceed further if the user is unaware of this downtime! ==============================System Information=============================== Task Manager Command: /opt/ptm/task_mgr.pl Starts at: Sat Oct 5 10:03:47 2019 Dual SP: Yes SP: b Platform: OBERON Original Primary: Yes Model: Unity xxx Serial Number: xxxxxxxxxxxxx Total number of attempts: 0 =============================================================================== ==========================Time Estimate for All Tasks========================== Task name [ 22 tasks in total ] Estimated Status Time(Minutes) 1 Slic wait for system ready slic (local) 3 2 Core run pre upgrade health checks (local) 2 3 ESLIC check eslic configuration (local) 1 4 Core enable auto start (local) 0 5 Core clear boot counters (local) 0 6 Core clear boot counters (remote) 0 7 Core force vdms off sp (remote) 2 8 ESLIC set esp boolean (remote) 1 9 Core disable quickboot (remote) 1 10 Core reboot peer sp if required (local) 10 11 Core start c4 (remote) 5 12 Core wait for system ready on peer 3 13 Core force vdms off sp (local) 2 14 ESLIC set esp boolean (local) 1 15 Core disable quickboot (local) 1 16 Core reboot sp if required (local) 10 17 Core start c4 (local) 5 18 Core wait for system ready (local) 3 19 ESLIC final configuration check (local) 1 20 Core clean up (local) 0 21 Core clean up peer (local) 0 22 Core disable auto start (local) 0 =============================================================================== =========================Estimated Time for Services ========================== Current Time: 10:03 Estimated Time when eSLIC will be complete: 10:52 =============================================================================== Do you wish to continue [ yes or no ]? >
=====================================Tasks===================================== 20:41 [ 17/22 ] Core start c4 (local) 5 minutes =============================================================================== 20:41 [ 18/22 ] Core wait for system ready (local) 3 minutes =============================================================================== 20:41 [ 19/22 ] ESLIC final configuration check (local) 30 seconds =============================================================================== 20:41 [ 20/22 ] Core clean up (local) 5 seconds =============================================================================== 20:41 [ 21/22 ] Core clean up peer (local) 5 seconds =============================================================================== 20:41 [ 22/22 ] Core disable auto start (local) 5 seconds =============================================================================== ===================================SUMMARY===================================== Status: Success Actual Time Spent: 16452 minutes Total Number of attempts: 1 Log File: /var/tmp/ptm/ptm.log =====================================END=======================================
/EMC/backend/log_shared/EMCSystemLogFile.log:
Platform_Basic 30018 [NOTICE] Audit: Service user executed the following service script command: svc_change_hw_config -e IOModule 30010 [INFO] User: Starting the hardware configuration commit operation Platform_Basic 30018 [NOTICE] Audit: Service user executed the following service script command: svc_dc -pbc udoctor IOModule 30014 [INFO] User: Completed task <17> of <22> (Restarting services) IOModule 30014 [INFO] User: Completed task <18> of <22> (Waiting for system ready state) IOModule 30014 [INFO] User: Completed task <19> of <22> (Checking if upgrade complete) IOModule 30014 [INFO] User: Completed task <20> of <22> (Cleaning up) IOModule 30014 [INFO] User: Completed task <21> of <22> (Cleaning up) IOModule 30014 [INFO] User: Completed task <22> of <22> (Disabling automatic restart) IOModule 30011 [NOTICE] User: The hardware configuration has been successfully committed Health 6044f [INFO] User: Storage Processor SP A is operating normally Health 6044f [INFO] User: Storage Processor SP B is operating normally
När utdata ovan har visats uppdaterar du Unisphere-användargränssnittet och ser om statusen har ändrats tillbaka till det normala (förväntat).
Om inte, kontakta Dells tekniska support och hänvisa till den här artikeln.
Obs! Mer information om det här kommandot finns i dokumentet Servicekommandon för Dell EMC Unity-serien™ – tekniska anmärkningar, https://www.dell.com/support/home/en-us
Additional Information
OBS! Det finns också ett möjligt dåligt knappcellsbatteri som orsakar ett falskt positivt SP-omstartsproblem i användargränssnittet.
Se KB 000069296 Dell Unity: Knappcellsbatteri på lagringsprocessorn (kan korrigeras av Dell)