Dell Unity: As controladoras de armazenamento são exibidas como reinicializando na interface do usuário, mas não na CLI e sem LEDs com falha (corrigível pelo usuário)

Summary: Este artigo explica por que a interface do usuário do Unisphere pode estar exibindo as SPs degradadas e reinicializando quando elas estão no modo Normal.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

O Small Factor Pluggable (SFP) aparece como ausente uma vez nos logs e, posteriormente, aparece como bom.
Sabe-se que os SFPs não são detectados se tiverem um pouco de poeira ou não estiverem totalmente inseridos na porta.
É um fator comum para a degradação do desempenho, pois causa desconexões constantes e pode até ser responsabilizado como um dispositivo de drenagem lenta.

Na interface do usuário do Unisphere, as controladoras de armazenamento são exibidas como reinicializando e em estado degradado em "SYSTEM", > "Service", > "Service Tasks".

Na interface do usuário do Unisphere, as controladoras de armazenamento são exibidas como reinicializando e em estado degradado em


No entanto, em um terminal SSH usando CLI, ambas as controladoras estão no modo normal.
Isso foi visto no Unity OE versão 4.5.1.0.5.001 até agora.

Exemplo:

service@CKMxxxxxxxx spa:~/user# svc_diag
======== Now executing basic state ========
* System Serial Number is: CKMxxxxxxx
* System Model Number is: Unity 500
* System Friendly Host Name is: CKMxxxxxxxx
* Current Software version: c4dev_PIE_3786R-4.5.1.0.5.001.1552025209-GNOSIS_RETAIL
* Unisphere IP address(es): xx.xxx.xxx.xx xxxx::xxx:xxxx:xxxx:xxxx
* SSH Enabled: true
* FIPS mode: Disabled
* Boot Mode: Normal Mode
* Post Faults:  0x0000
* Backend Faults:       0x0000
* Boot Faults:  0x0000
* Rescue Reason:        0x0000
* Rescue reason for code 0x0000 - No faults detected.
* SP Service Hint Code: <None>

Cause

Essa situação específica acontecia durante a instalação de novos módulos de E/S.
A confirmação não foi concluída devido a um SFP não ideal, portanto, as operações relacionadas à integridade foram temporariamente desativadas (semelhante ao que acontece durante os upgrades).
Como a consulta de integridade foi desativada, o sistema não conseguiu identificar o status correto das controladoras de armazenamento e relatou um status conhecido anterior, de "reinicialização".

Para confirmar se esse é o mesmo problema, verifique os seguintes registros:
/var/tmp/ptm/ptm.log
/EMC/C4Core/log/c4_safe_ktrace.log

Isso pode ser visto ao vivo executando os comandos em um terminal SSH ou nos registros de coleta de dados de serviço triados:

Comando/log #1:
cat /var/tmp/ptm/ptm.log

Resultado esperado:
=====================================Tasks=====================================
10:56 [ 16/22 ]  Core reboot sp if required (local)                  10 minutes
Start at: Thu May 23 10:56:19 2019
Complete at: Thu May 23 10:56:19 2019
===============================================================================
10:56 [ 17/22 ]  Core start c4 (local)                                5 minutes
Start at: Thu May 23 10:56:19 2019
Task Manager was terminated unexpectedly with signal <TERM>
.... <there might be a few extra lines here > ....
Previous failure detected. Not auto-restarting.
Comando/log #2:
less /EMC/C4Core/log/c4_safe_ktrace.log

E procure eventos relacionados a SFP ou Mezanino.
Podemos ver que algo deu errado ao instalar os novos módulos de E/S:
c4_safe_ktrace   INFO OBJ 3 RP:MEZZ(SP: 0, Slot: 0): fbe_base_env_send_resume_prom_read_async_cmd entry.
c4_safe_ktrace   INFO OBJ 3 RP:MEZZ(SP: 0, Slot: 0): Read async completed, workItem 0x7f2486432760, resumeStatus DEVICE_NOT_VALID_FOR_PLATFO
c4_safe_ktrace   INFO OBJ 3 100C0 : ModMgmt: CLEAR enclFaultLedReason Mezzanine RP Fault. <<<====== Fault detected in Root Port (RP)
..........
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_module_state, SPB Mezzanine 0, state:ENABLED, substate:GOOD
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 0, state ENABLED, substate GOOD
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 1, state MISSING, substate MISS_SFP <<<=== SFP not detected 
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 2, state ENABLED, substate GOOD
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 3, state ENABLED, substate GOOD
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 4, state ENABLED, substate GOOD
c4_safe_ktrace   INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 5, state ENABLED, substate GOOD

Resolution

Para resolver esse problema, confirme novamente os módulos de E/S, pois eles falharam inicialmente, usando os comandos listados abaixo.
Nota: Esses comandos não exigem root, mas exigem um array íntegro, portanto, antes de executar, confirme se o array está totalmente operacional, como tal:

Command #1:

uemcli -no /sys/general healthcheck -output csv -detail

Exemplos de saídas:
#1 (NÃO ideal) - não prossiga antes de resolver os erros exibidos).
"Error code"
"Warning: One or more asynchronous replication sessions, or one or more NAS Server or file system synchronous replication sessions, exist. This could cause problems during upgrade. Pause the replication sessions on the production array prior to starting the upgrade and resume them after completing the upgrade. [Warning Code: platform::check_replication_health_4]"
"Warning: One or more NAS servers may not be in a healthy state. You can continue with the upgrade, but it is recommended that you record the error code and contact your service provider. [Warning Code: dm::check_nas_servers_health_3]"
Operation completed successfully.

Nota: Ele menciona "Upgrade" porque esse é o comando usado antes de executar NDU (Non-Disruptive Upgrades, upgrades não disruptivos). No entanto, o motivo pelo qual essas mensagens são exibidas é porque o array (ambas as controladoras) precisa ser reinicializado.
O comando #2 também pode exigir uma reinicialização, por isso é importante que essa verificação de integridade passe sem nenhum [Código de erro:].
[Warnings] pode ser ignorado, mas o prompt do comando #2 é a mensagem "Do you still want to continue," E você pode digitar "sim". No entanto, a recomendação do Suporte Dell é resolver todas as advertências e erros na verificação de integridade antes de continuar.
 
Para reinicializar uma controladora, siga as etapas descritas na KB Dell Unity: Como reinicializar uma controladora (a correção pode ser feita pelo usuário)

#2 (Optimal) - você pode ir para o Comando #2
"Error code"
Operation completed successfully.


Comando #2:

svc_change_hw_config -e

Saída esperada:
service@CKMxxxxxxxx spa:~/user# svc_change_hw_config -e
Checking if both SPs are in Normal mode...OK
INFO:    Beginning eSLIC or CNA Hardware Upgrade...
WARNING: This operation will cause several reboots to occur on the Storage Processors.
WARNING: Do NOT proceed further if the user is unaware of this downtime!
==============================System Information===============================
Task Manager Command:            /opt/ptm/task_mgr.pl
Starts at:                       Sat Oct  5 10:03:47 2019
Dual SP:                         Yes
SP:                              b
Platform:                        OBERON
Original Primary:                Yes
Model:                           Unity xxx
Serial Number:                   xxxxxxxxxxxxx
Total number of attempts:        0
===============================================================================

==========================Time Estimate for All Tasks==========================
Task name [ 22 tasks in total ]                      Estimated     Status
                                                           Time(Minutes)
  1         Slic wait for system ready slic (local)         3
  2      Core run pre upgrade health checks (local)         2
  3         ESLIC check eslic configuration (local)         1
  4                  Core enable auto start (local)         0
  5                Core clear boot counters (local)         0
  6               Core clear boot counters (remote)         0
  7                 Core force vdms off sp (remote)         2
  8                  ESLIC set esp boolean (remote)         1
  9                 Core disable quickboot (remote)         1
 10         Core reboot peer sp if required (local)        10
 11                          Core start c4 (remote)         5
 12              Core wait for system ready on peer         3
 13                  Core force vdms off sp (local)         2
 14                   ESLIC set esp boolean (local)         1
 15                  Core disable quickboot (local)         1
 16              Core reboot sp if required (local)        10
 17                           Core start c4 (local)         5
 18              Core wait for system ready (local)         3
 19         ESLIC final configuration check (local)         1
 20                           Core clean up (local)         0
 21                      Core clean up peer (local)         0
 22                 Core disable auto start (local)         0

===============================================================================

=========================Estimated Time for Services ==========================
Current Time:                                      10:03
Estimated Time when eSLIC will be complete:      10:52
===============================================================================
Do you wish to continue [ yes or no ]? >
Depois de digitar "yes" e pressionar a tecla "Return", você verá a saída abaixo:
=====================================Tasks=====================================
20:41 [ 17/22 ]  Core start c4 (local)                                5 minutes
===============================================================================
20:41 [ 18/22 ]  Core wait for system ready (local)                   3 minutes
===============================================================================
20:41 [ 19/22 ]  ESLIC final configuration check (local)             30 seconds
===============================================================================
20:41 [ 20/22 ]  Core clean up (local)                                5 seconds
===============================================================================
20:41 [ 21/22 ]  Core clean up peer (local)                           5 seconds
===============================================================================
20:41 [ 22/22 ]  Core disable auto start (local)                      5 seconds
===============================================================================
===================================SUMMARY=====================================
Status:                   Success
Actual Time Spent:        16452 minutes
Total Number of attempts: 1
Log File:                 /var/tmp/ptm/ptm.log
=====================================END=======================================
Eles também estão conectados /EMC/backend/log_shared/EMCSystemLogFile.log:
 
Platform_Basic      30018 [NOTICE] Audit: Service user executed the following service script command: svc_change_hw_config -e
IOModule            30010 [INFO] User: Starting the hardware configuration commit operation
Platform_Basic      30018 [NOTICE] Audit: Service user executed the following service script command: svc_dc -pbc udoctor
IOModule            30014 [INFO] User: Completed task <17> of <22> (Restarting services)
IOModule            30014 [INFO] User: Completed task <18> of <22> (Waiting for system ready state)
IOModule            30014 [INFO] User: Completed task <19> of <22> (Checking if upgrade complete)
IOModule            30014 [INFO] User: Completed task <20> of <22> (Cleaning up)
IOModule            30014 [INFO] User: Completed task <21> of <22> (Cleaning up)
IOModule            30014 [INFO] User: Completed task <22> of <22> (Disabling automatic restart)
IOModule            30011 [NOTICE] User: The hardware configuration has been successfully committed
Health              6044f [INFO] User: Storage Processor SP A is operating normally
Health              6044f [INFO] User: Storage Processor SP B is operating normally

Depois que o resultado acima for exibido, atualize a interface do usuário do Unisphere e veja se o status mudou de volta ao normal (esperado).
Caso contrário, entre em contato com o suporte técnico da Dell e consulte este artigo.


Nota: Mais informações sobre esse comando estão no documento Notas técnicas de comandos de serviço da família Dell EMC Unity™, em https://www.dell.com/support/home/en-us

 

Additional Information

NOTA: Há também uma possível bateria de célula tipo moeda com defeito, causando um problema falso positivo de reinicialização da SP na interface do usuário.
Consulte a KB 000069296 Dell Unity: Bateria de célula tipo moeda na controladora (corrigível pela Dell)

Affected Products

Dell Unity 300, Dell EMC Unity Family

Products

Dell EMC Unity 300F, Dell EMC Unity 350F, Dell EMC Unity 400, Dell EMC Unity 400F, Dell EMC Unity 450F, Dell EMC Unity 500, Dell EMC Unity 500F, Dell EMC Unity 550F, Dell EMC Unity 600, Dell EMC Unity 600F, Dell EMC Unity 650F , Dell EMC Unity Family |Dell EMC Unity All Flash, Dell EMC Unity Family, Dell EMC Unity Hybrid ...
Article Properties
Article Number: 000056107
Article Type: Solution
Last Modified: 04 Dec 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.