Dell Unity: Storageprocessors worden weergegeven als opnieuw opstarten in de gebruikersinterface, maar niet in CLI en er zijn geen defecte LED-lampjes (op te lossen door gebruiker)

Summary: In dit artikel wordt uitgelegd waarom de Unisphere-gebruikersinterface mogelijk de SP's verslechterd weergeeft en opnieuw opstart wanneer ze zich in de normale modus bevinden.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

De Small Factor Pluggable (SFP) wordt één keer als ontbrekend weergegeven in logboeken en later als goed.
SFP's staan erom bekend dat ze niet worden gedetecteerd als ze een beetje stof bevatten of niet volledig in de poort zijn geplaatst.
Het is een veel voorkomende factor voor prestatievermindering, omdat het constante verbroken verbindingen veroorzaakt en zelfs verantwoordelijk kan zijn als een apparaat

met een langzame afvoer.In de Unisphere-gebruikersinterface worden de storageprocessors weergegeven als opnieuw opstarten en in gedegradeerde status bij 'SYSTEM' > 'Service' > 'Service Tasks'.

In de Unisphere-gebruikersinterface worden de storageprocessors weergegeven als opnieuw opstarten en in gedegradeerde status bij 'SYSTEM' > 'Service' > 'Service Tasks'.


In een SSH-terminal met CLI bevinden beide SP's zich echter in de normale modus.
Dit is tot nu toe te zien in Unity OE versie 4.5.1.0.5.001.

Voorbeeld:

service@CKMxxxxxxxx spa:~/user# svc_diag
======== Now executing basic state ========
* System Serial Number is: CKMxxxxxxx
* System Model Number is: Unity 500
* System Friendly Host Name is: CKMxxxxxxxx
* Current Software version: c4dev_PIE_3786R-4.5.1.0.5.001.1552025209-GNOSIS_RETAIL
* Unisphere IP address(es): xx.xxx.xxx.xx xxxx::xxx:xxxx:xxxx:xxxx
* SSH Enabled: true
* FIPS mode: Disabled
* Boot Mode: Normal Mode
* Post Faults:  0x0000
* Backend Faults:       0x0000
* Boot Faults:  0x0000
* Rescue Reason:        0x0000
* Rescue reason for code 0x0000 - No faults detected.
* SP Service Hint Code: <None>

Cause

Deze specifieke situatie deed zich voor bij het installeren van nieuwe I/O-modules.
De doorvoering is niet voltooid vanwege een niet-optimale SFP, waardoor statusgerelateerde bewerkingen tijdelijk zijn uitgeschakeld (vergelijkbaar met wat er gebeurt tijdens upgrades).
Omdat de statuspeiling was uitgeschakeld, kon het systeem de juiste status van de storageprocessors niet identificeren en meldde het een eerder bekende status van "rebooting".

Controleer de volgende logboeken om te bevestigen dat dit hetzelfde probleem is:
/var/tmp/ptm/ptm.log
/EMC/C4Core/log/c4_safe_ktrace.log

Dit kan live worden bekeken door de opdrachten uit te voeren op een SSH Terminal of in Triaged Service Data Collection logs:

Opdracht/logboek #1:
cat /var/tmp/ptm/ptm.log

Verwachte output:
=====================================Tasks=====================================
10:56 [ 16/22 ]  Core reboot sp if required (local)                  10 minutes
Start at: Thu May 23 10:56:19 2019
Complete at: Thu May 23 10:56:19 2019
===============================================================================
10:56 [ 17/22 ]  Core start c4 (local)                                5 minutes
Start at: Thu May 23 10:56:19 2019
Task Manager was terminated unexpectedly with signal <TERM>
.... <there might be a few extra lines here > ....
Previous failure detected. Not auto-restarting.
Opdracht/logboek #2:
less /EMC/C4Core/log/c4_safe_ktrace.log

En zoek naar SFP- of Mezzanine-gerelateerde gebeurtenissen.
We zien dat er iets is misgegaan bij het installeren van de nieuwe I/O-modules:
c4_safe_ktrace   INFO OBJ 3 RP:MEZZ(SP: 0, Slot: 0): fbe_base_env_send_resume_prom_read_async_cmd entry.
c4_safe_ktrace   INFO OBJ 3 RP:MEZZ(SP: 0, Slot: 0): Read async completed, workItem 0x7f2486432760, resumeStatus DEVICE_NOT_VALID_FOR_PLATFO
c4_safe_ktrace   INFO OBJ 3 100C0 : ModMgmt: CLEAR enclFaultLedReason Mezzanine RP Fault. <<<====== Fault detected in Root Port (RP)
..........
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_module_state, SPB Mezzanine 0, state:ENABLED, substate:GOOD
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 0, state ENABLED, substate GOOD
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 1, state MISSING, substate MISS_SFP <<<=== SFP not detected 
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 2, state ENABLED, substate GOOD
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 3, state ENABLED, substate GOOD
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 4, state ENABLED, substate GOOD
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 5, state ENABLED, substate GOOD

Resolution

U kunt dit probleem oplossen door de I/O-modules opnieuw vast te leggen, aangezien dit in eerste instantie niet lukte, met behulp van de onderstaande opdrachten.
Notitie: Voor deze opdrachten is geen root vereist, maar wel een gezonde array, dus voordat u deze uitvoert, moet u controleren of uw array volledig operationeel is, als volgt:

Command #1:

uemcli -no /sys/general healthcheck -output csv -detail

Voorbeeld van uitvoer:
#1 (NIET optimaal) - ga niet verder voordat de weergegeven fouten zijn opgelost).
"Error code"
"Warning: One or more asynchronous replication sessions, or one or more NAS Server or file system synchronous replication sessions, exist. This could cause problems during upgrade. Pause the replication sessions on the production array prior to starting the upgrade and resume them after completing the upgrade. [Warning Code: platform::check_replication_health_4]"
"Warning: One or more NAS servers may not be in a healthy state. You can continue with the upgrade, but it is recommended that you record the error code and contact your service provider. [Warning Code: dm::check_nas_servers_health_3]"
Operation completed successfully.

Opmerking: Er wordt wel "Upgrade" vermeld omdat dit de opdracht is die wordt gebruikt voordat NDU (Non-Disruptive Upgrades) wordt uitgevoerd. De reden dat deze berichten worden weergegeven, is echter omdat de array (beide SP's) opnieuw moet worden opgestart.
Opdracht #2 moet mogelijk ook opnieuw worden opgestart. Daarom is het belangrijk dat deze statuscontrole slaagt zonder [Error Code:].
[Waarschuwingen] kunnen worden genegeerd, maar opdracht #2 prompt is het bericht "Do you still want to continue," en u kunt "ja" invoeren. Dell Support adviseert echter om alle waarschuwingen en fouten in de healthcheck op te lossen voordat u verdergaat.
 
Als u een storageprocessor opnieuw wilt opstarten, volgt u de stappen in KB Dell Unity: Een storageverwerker opnieuw opstarten (op te lossen door gebruiker)

#2 (Optimaal) - u kunt naar Commando #2 gaan
"Error code"
Operation completed successfully.


Opdracht #2:

svc_change_hw_config -e

Verwachte output:
service@CKMxxxxxxxx spa:~/user# svc_change_hw_config -e
Checking if both SPs are in Normal mode...OK
INFO:    Beginning eSLIC or CNA Hardware Upgrade...
WARNING: This operation will cause several reboots to occur on the Storage Processors.
WARNING: Do NOT proceed further if the user is unaware of this downtime!
==============================System Information===============================
Task Manager Command:            /opt/ptm/task_mgr.pl
Starts at:                       Sat Oct  5 10:03:47 2019
Dual SP:                         Yes
SP:                              b
Platform:                        OBERON
Original Primary:                Yes
Model:                           Unity xxx
Serial Number:                   xxxxxxxxxxxxx
Total number of attempts:        0
===============================================================================

==========================Time Estimate for All Tasks==========================
Task name [ 22 tasks in total ]                      Estimated     Status
                                                           Time(Minutes)
  1         Slic wait for system ready slic (local)         3
  2      Core run pre upgrade health checks (local)         2
  3         ESLIC check eslic configuration (local)         1
  4                  Core enable auto start (local)         0
  5                Core clear boot counters (local)         0
  6               Core clear boot counters (remote)         0
  7                 Core force vdms off sp (remote)         2
  8                  ESLIC set esp boolean (remote)         1
  9                 Core disable quickboot (remote)         1
 10         Core reboot peer sp if required (local)        10
 11                          Core start c4 (remote)         5
 12              Core wait for system ready on peer         3
 13                  Core force vdms off sp (local)         2
 14                   ESLIC set esp boolean (local)         1
 15                  Core disable quickboot (local)         1
 16              Core reboot sp if required (local)        10
 17                           Core start c4 (local)         5
 18              Core wait for system ready (local)         3
 19         ESLIC final configuration check (local)         1
 20                           Core clean up (local)         0
 21                      Core clean up peer (local)         0
 22                 Core disable auto start (local)         0

===============================================================================

=========================Estimated Time for Services ==========================
Current Time:                                      10:03
Estimated Time when eSLIC will be complete:      10:52
===============================================================================
Do you wish to continue [ yes or no ]? >
Nadat u "yes" hebt getypt en op de "Return"-toets hebt gedrukt, zou u de onderstaande uitvoer moeten zien:
=====================================Tasks=====================================
20:41 [ 17/22 ]  Core start c4 (local)                                5 minutes
===============================================================================
20:41 [ 18/22 ]  Core wait for system ready (local)                   3 minutes
===============================================================================
20:41 [ 19/22 ]  ESLIC final configuration check (local)             30 seconds
===============================================================================
20:41 [ 20/22 ]  Core clean up (local)                                5 seconds
===============================================================================
20:41 [ 21/22 ]  Core clean up peer (local)                           5 seconds
===============================================================================
20:41 [ 22/22 ]  Core disable auto start (local)                      5 seconds
===============================================================================
===================================SUMMARY=====================================
Status:                   Success
Actual Time Spent:        16452 minutes
Total Number of attempts: 1
Log File:                 /var/tmp/ptm/ptm.log
=====================================END=======================================
Deze worden ook ingelogd /EMC/backend/log_shared/EMCSystemLogFile.log:
 
Platform_Basic      30018 [NOTICE] Audit: Service user executed the following service script command: svc_change_hw_config -e
IOModule            30010 [INFO] User: Starting the hardware configuration commit operation
Platform_Basic      30018 [NOTICE] Audit: Service user executed the following service script command: svc_dc -pbc udoctor
IOModule            30014 [INFO] User: Completed task <17> of <22> (Restarting services)
IOModule            30014 [INFO] User: Completed task <18> of <22> (Waiting for system ready state)
IOModule            30014 [INFO] User: Completed task <19> of <22> (Checking if upgrade complete)
IOModule            30014 [INFO] User: Completed task <20> of <22> (Cleaning up)
IOModule            30014 [INFO] User: Completed task <21> of <22> (Cleaning up)
IOModule            30014 [INFO] User: Completed task <22> of <22> (Disabling automatic restart)
IOModule            30011 [NOTICE] User: The hardware configuration has been successfully committed
Health              6044f [INFO] User: Storage Processor SP A is operating normally
Health              6044f [INFO] User: Storage Processor SP B is operating normally

Nadat de bovenstaande uitvoer is weergegeven, vernieuwt u de Unisphere-gebruikersinterface en controleert u of de status is teruggezet naar normaal (verwacht).
Als dit niet het geval is, neemt u contact op met de technische support van Dell en raadpleegt u dit artikel.


Opmerking: Meer informatie over deze opdracht is te vinden in de technische opmerkingen van de serviceopdrachten van de Dell EMC Unity-reeks™ op https://www.dell.com/support/home/en-us

 

Additional Information

OPMERKING: Er is ook een mogelijk slechte knoopcelbatterij die een fout-positief probleem veroorzaakt bij het opnieuw opstarten van SP in de gebruikersinterface.
Zie KB 000069296 Dell Unity: Knoopcelbatterij op de storageprocessor (op te lossen door Dell)

Affected Products

Dell Unity 300, Dell EMC Unity Family

Products

Dell EMC Unity 300F, Dell EMC Unity 350F, Dell EMC Unity 400, Dell EMC Unity 400F, Dell EMC Unity 450F, Dell EMC Unity 500, Dell EMC Unity 500F, Dell EMC Unity 550F, Dell EMC Unity 600, Dell EMC Unity 600F, Dell EMC Unity 650F , Dell EMC Unity Family |Dell EMC Unity All Flash, Dell EMC Unity Family, Dell EMC Unity Hybrid ...
Article Properties
Article Number: 000056107
Article Type: Solution
Last Modified: 04 Dec 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.