Dell Unity : Les processeurs de stockage s’affichent comme étant en train de redémarrer dans l’interface utilisateur, mais pas dans la CLI, et aucun voyant LED défectueux (corrigible par l’utilisateur)

Summary: Cet article explique pourquoi l’interface utilisateur Unisphere peut afficher les processeurs de stockage dégradés et redémarrer lorsqu’ils sont en mode normal.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Le SFP (Small Factor Pluggable) apparaît comme manquant une première fois dans les journaux, puis s’affiche comme bon.
Les SFP ne sont pas détectés s’ils sont un peu poussiéreux ou s’ils ne sont pas complètement insérés dans le port.
Il s’agit d’un facteur courant de dégradation des performances, car il provoque des déconnexions constantes et peut même être considéré comme un dispositif à vidage lent.

Dans l’interface utilisateur Unisphere, les processeurs de stockage s’affichent comme étant en cours de redémarrage et dans un état dégradé sous « SYSTEM », > « Service », « Service Tasks > ».

Dans l’interface utilisateur Unisphere, les processeurs de stockage s’affichent comme étant en cours de redémarrage et dans un état dégradé sous « SYSTEM », > « Service », « Service Tasks > ».


Toutefois, dans un terminal SSH utilisant la CLI, les deux SP sont en mode Normal.
Ce problème a été observé dans Unity OE version 4.5.1.0.5.001 jusqu’à présent.

Exemple:

service@CKMxxxxxxxx spa:~/user# svc_diag
======== Now executing basic state ========
* System Serial Number is: CKMxxxxxxx
* System Model Number is: Unity 500
* System Friendly Host Name is: CKMxxxxxxxx
* Current Software version: c4dev_PIE_3786R-4.5.1.0.5.001.1552025209-GNOSIS_RETAIL
* Unisphere IP address(es): xx.xxx.xxx.xx xxxx::xxx:xxxx:xxxx:xxxx
* SSH Enabled: true
* FIPS mode: Disabled
* Boot Mode: Normal Mode
* Post Faults:  0x0000
* Backend Faults:       0x0000
* Boot Faults:  0x0000
* Rescue Reason:        0x0000
* Rescue reason for code 0x0000 - No faults detected.
* SP Service Hint Code: <None>

Cause

Cette situation particulière s’est produite lors de l’installation de nouveaux modules d’E/S.
La validation n’a pas été effectuée en raison d’un SFP non optimal. Par conséquent, les opérations liées à l’intégrité ont été temporairement désactivées (comme cela se produit lors des mises à niveau).
Lorsque l’interrogation d’intégrité a été désactivée, le système n’a pas pu identifier l’état correct des processeurs de stockage et a signalé un état connu précédent, « redémarrage ».

Pour confirmer qu’il s’agit bien du même problème, vérifiez les journaux suivants :
/var/tmp/ptm/ptm.log
/EMC/C4Core/log/c4_safe_ktrace.log

Cela peut être vu en direct en exécutant les commandes sur un terminal SSH ou dans les journaux de collecte de données de service triés :

Commande/journal #1 :
cat /var/tmp/ptm/ptm.log

Sortie attendue :
=====================================Tasks=====================================
10:56 [ 16/22 ]  Core reboot sp if required (local)                  10 minutes
Start at: Thu May 23 10:56:19 2019
Complete at: Thu May 23 10:56:19 2019
===============================================================================
10:56 [ 17/22 ]  Core start c4 (local)                                5 minutes
Start at: Thu May 23 10:56:19 2019
Task Manager was terminated unexpectedly with signal <TERM>
.... <there might be a few extra lines here > ....
Previous failure detected. Not auto-restarting.
Commande/journal #2 :
less /EMC/C4Core/log/c4_safe_ktrace.log

Et recherchez les événements liés au SFP ou à la mezzanine.
Nous pouvons voir qu’un problème est survenu lors de l’installation des nouveaux modules d’E/S :
c4_safe_ktrace   INFO OBJ 3 RP:MEZZ(SP: 0, Slot: 0): fbe_base_env_send_resume_prom_read_async_cmd entry.
c4_safe_ktrace   INFO OBJ 3 RP:MEZZ(SP: 0, Slot: 0): Read async completed, workItem 0x7f2486432760, resumeStatus DEVICE_NOT_VALID_FOR_PLATFO
c4_safe_ktrace   INFO OBJ 3 100C0 : ModMgmt: CLEAR enclFaultLedReason Mezzanine RP Fault. <<<====== Fault detected in Root Port (RP)
..........
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_module_state, SPB Mezzanine 0, state:ENABLED, substate:GOOD
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 0, state ENABLED, substate GOOD
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 1, state MISSING, substate MISS_SFP <<<=== SFP not detected 
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 2, state ENABLED, substate GOOD
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 3, state ENABLED, substate GOOD
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 4, state ENABLED, substate GOOD
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 5, state ENABLED, substate GOOD

Resolution

Pour résoudre ce problème, relancez la validation des modules d’E/S, car ils ont échoué initialement, à l’aide des commandes répertoriées ci-dessous.
Note: Ces commandes ne nécessitent pas root, mais nécessitent une baie saine, donc avant de l’exécuter, confirmez que votre baie est entièrement opérationnelle, comme suit :

Command #1 :

uemcli -no /sys/general healthcheck -output csv -detail

Exemples de sorties :
#1 (non optimal) - ne continuez pas avant d’avoir résolu les erreurs affichées).
"Error code"
"Warning: One or more asynchronous replication sessions, or one or more NAS Server or file system synchronous replication sessions, exist. This could cause problems during upgrade. Pause the replication sessions on the production array prior to starting the upgrade and resume them after completing the upgrade. [Warning Code: platform::check_replication_health_4]"
"Warning: One or more NAS servers may not be in a healthy state. You can continue with the upgrade, but it is recommended that you record the error code and contact your service provider. [Warning Code: dm::check_nas_servers_health_3]"
Operation completed successfully.

Remarque : Il mentionne « Upgrade », car il s’agit de la commande utilisée avant d’effectuer des mises à niveau sans perturbation (NDU). Toutefois, la raison pour laquelle ces messages s’affichent est que la baie (les deux SP) doit être redémarrée.
La commande #2 peut également nécessiter un redémarrage, c’est pourquoi il est important que ce bilan de santé réussisse sans aucun [Code d’erreur :].
Les [avertissements] peuvent être ignorés, mais l’invite de commande #2 affiche le message "Do you still want to continue," et vous pouvez entrer « Oui ». Toutefois, le support Dell recommande de résoudre tous les avertissements et erreurs du bilan de santé avant de continuer.
 
Pour redémarrer un processeur de stockage, suivez les étapes décrites dans la base de connaissances Dell Unity : Redémarrer un processeur de stockage (en anglais – corrigible par l’utilisateur)

#2 (Optimal) - vous pouvez aller à la commande #2
"Error code"
Operation completed successfully.


Commande #2 :

svc_change_hw_config -e

Résultat attendu :
service@CKMxxxxxxxx spa:~/user# svc_change_hw_config -e
Checking if both SPs are in Normal mode...OK
INFO:    Beginning eSLIC or CNA Hardware Upgrade...
WARNING: This operation will cause several reboots to occur on the Storage Processors.
WARNING: Do NOT proceed further if the user is unaware of this downtime!
==============================System Information===============================
Task Manager Command:            /opt/ptm/task_mgr.pl
Starts at:                       Sat Oct  5 10:03:47 2019
Dual SP:                         Yes
SP:                              b
Platform:                        OBERON
Original Primary:                Yes
Model:                           Unity xxx
Serial Number:                   xxxxxxxxxxxxx
Total number of attempts:        0
===============================================================================

==========================Time Estimate for All Tasks==========================
Task name [ 22 tasks in total ]                      Estimated     Status
                                                           Time(Minutes)
  1         Slic wait for system ready slic (local)         3
  2      Core run pre upgrade health checks (local)         2
  3         ESLIC check eslic configuration (local)         1
  4                  Core enable auto start (local)         0
  5                Core clear boot counters (local)         0
  6               Core clear boot counters (remote)         0
  7                 Core force vdms off sp (remote)         2
  8                  ESLIC set esp boolean (remote)         1
  9                 Core disable quickboot (remote)         1
 10         Core reboot peer sp if required (local)        10
 11                          Core start c4 (remote)         5
 12              Core wait for system ready on peer         3
 13                  Core force vdms off sp (local)         2
 14                   ESLIC set esp boolean (local)         1
 15                  Core disable quickboot (local)         1
 16              Core reboot sp if required (local)        10
 17                           Core start c4 (local)         5
 18              Core wait for system ready (local)         3
 19         ESLIC final configuration check (local)         1
 20                           Core clean up (local)         0
 21                      Core clean up peer (local)         0
 22                 Core disable auto start (local)         0

===============================================================================

=========================Estimated Time for Services ==========================
Current Time:                                      10:03
Estimated Time when eSLIC will be complete:      10:52
===============================================================================
Do you wish to continue [ yes or no ]? >
Une fois que vous avez tapé « oui » et appuyé sur la touche « Retour », vous devriez voir le résultat ci-dessous :
=====================================Tasks=====================================
20:41 [ 17/22 ]  Core start c4 (local)                                5 minutes
===============================================================================
20:41 [ 18/22 ]  Core wait for system ready (local)                   3 minutes
===============================================================================
20:41 [ 19/22 ]  ESLIC final configuration check (local)             30 seconds
===============================================================================
20:41 [ 20/22 ]  Core clean up (local)                                5 seconds
===============================================================================
20:41 [ 21/22 ]  Core clean up peer (local)                           5 seconds
===============================================================================
20:41 [ 22/22 ]  Core disable auto start (local)                      5 seconds
===============================================================================
===================================SUMMARY=====================================
Status:                   Success
Actual Time Spent:        16452 minutes
Total Number of attempts: 1
Log File:                 /var/tmp/ptm/ptm.log
=====================================END=======================================
Ceux-ci sont également connectés /EMC/backend/log_shared/EMCSystemLogFile.log:
 
Platform_Basic      30018 [NOTICE] Audit: Service user executed the following service script command: svc_change_hw_config -e
IOModule            30010 [INFO] User: Starting the hardware configuration commit operation
Platform_Basic      30018 [NOTICE] Audit: Service user executed the following service script command: svc_dc -pbc udoctor
IOModule            30014 [INFO] User: Completed task <17> of <22> (Restarting services)
IOModule            30014 [INFO] User: Completed task <18> of <22> (Waiting for system ready state)
IOModule            30014 [INFO] User: Completed task <19> of <22> (Checking if upgrade complete)
IOModule            30014 [INFO] User: Completed task <20> of <22> (Cleaning up)
IOModule            30014 [INFO] User: Completed task <21> of <22> (Cleaning up)
IOModule            30014 [INFO] User: Completed task <22> of <22> (Disabling automatic restart)
IOModule            30011 [NOTICE] User: The hardware configuration has been successfully committed
Health              6044f [INFO] User: Storage Processor SP A is operating normally
Health              6044f [INFO] User: Storage Processor SP B is operating normally

Une fois la sortie ci-dessus affichée, actualisez l’interface utilisateur Unisphere et vérifiez si l’état est revenu à la normale (ce qui est normal).
Si ce n’est pas le cas, contactez le support technique Dell et consultez cet article.


Remarque : Pour plus d’informations sur cette commande, reportez-vous au document Dell EMC Unity™ Family Service Commands Technical Notes, au https://www.dell.com/support/home/en-us

 

Additional Information

Remarque : Il existe également une pile bouton potentiellement défectueuse, provoquant un problème de redémarrage du SP faux positif dans l’interface utilisateur.
Reportez-vous à l’article 000069296 la base de connaissances Dell Unity : Pile bouton sur le processeur de stockage (corrigible par Dell)

Affected Products

Dell Unity 300, Dell EMC Unity Family

Products

Dell EMC Unity 300F, Dell EMC Unity 350F, Dell EMC Unity 400, Dell EMC Unity 400F, Dell EMC Unity 450F, Dell EMC Unity 500, Dell EMC Unity 500F, Dell EMC Unity 550F, Dell EMC Unity 600, Dell EMC Unity 600F, Dell EMC Unity 650F , Dell EMC Unity Family |Dell EMC Unity All Flash, Dell EMC Unity Family, Dell EMC Unity Hybrid ...
Article Properties
Article Number: 000056107
Article Type: Solution
Last Modified: 04 Dec 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.