Dell Unity: Los procesadores de almacenamiento se muestran como reiniciando en la interfaz de usuario, pero no en la CLI y sin LED con errores (corregibles por el usuario)
Summary: En este artículo, se explica por qué la interfaz de usuario de Unisphere podría mostrar los SP degradados y reiniciarse cuando están en modo normal.
Symptoms
El factor pequeño conectable (SFP) aparece como faltante una vez en los registros y, más adelante, se muestra como correcto.
Se sabe que los SFP no se detectan si tienen un poco de polvo o si no están completamente insertados en el puerto.
Es un factor común para la degradación del rendimiento, ya que causa desconexiones constantes e incluso puede ser responsable como un dispositivo de drenaje lento.
En la interfaz de usuario de Unisphere, los procesadores de almacenamiento se muestran como reiniciando y en estado degradado en "SYSTEM", > "Service", > "Service Tasks".
Sin embargo, en un terminal SSH que utiliza la CLI, ambos SP se encuentran en modo normal.
Esto se ha observado en Unity OE versión 4.5.1.0.5.001 hasta ahora.
Ejemplo:
service@CKMxxxxxxxx spa:~/user# svc_diag ======== Now executing basic state ======== * System Serial Number is: CKMxxxxxxx * System Model Number is: Unity 500 * System Friendly Host Name is: CKMxxxxxxxx * Current Software version: c4dev_PIE_3786R-4.5.1.0.5.001.1552025209-GNOSIS_RETAIL * Unisphere IP address(es): xx.xxx.xxx.xx xxxx::xxx:xxxx:xxxx:xxxx * SSH Enabled: true * FIPS mode: Disabled * Boot Mode: Normal Mode * Post Faults: 0x0000 * Backend Faults: 0x0000 * Boot Faults: 0x0000 * Rescue Reason: 0x0000 * Rescue reason for code 0x0000 - No faults detected. * SP Service Hint Code: <None>
Cause
Esta situación particular ocurría durante la instalación de nuevos módulos de I/O.
La confirmación no se completó debido a un SFP no óptimo, por lo que las operaciones relacionadas con el estado se deshabilitaron temporalmente (similar a lo que sucede durante las actualizaciones).
Debido a que el sondeo de estado se deshabilitó, el sistema no pudo identificar el estado correcto de los procesadores de almacenamiento e informó un estado conocido anterior, "reiniciando".
Para confirmar que se trata del mismo problema, verifique los siguientes registros: /var/tmp/ptm/ptm.log/EMC/C4Core/log/c4_safe_ktrace.log
Esto se puede ver en vivo mediante la ejecución de los comandos en un terminal SSH o en los registros de recolección de datos de servicio de triage:
cat /var/tmp/ptm/ptm.log
Resultado esperado:
=====================================Tasks===================================== 10:56 [ 16/22 ] Core reboot sp if required (local) 10 minutes Start at: Thu May 23 10:56:19 2019 Complete at: Thu May 23 10:56:19 2019 =============================================================================== 10:56 [ 17/22 ] Core start c4 (local) 5 minutes Start at: Thu May 23 10:56:19 2019 Task Manager was terminated unexpectedly with signal <TERM> .... <there might be a few extra lines here > .... Previous failure detected. Not auto-restarting.
less /EMC/C4Core/log/c4_safe_ktrace.log
Y busque eventos relacionados con SFP o mezzanine.
Podemos ver que algo salió mal al instalar los nuevos módulos de I/O:
c4_safe_ktrace INFO OBJ 3 RP:MEZZ(SP: 0, Slot: 0): fbe_base_env_send_resume_prom_read_async_cmd entry. c4_safe_ktrace INFO OBJ 3 RP:MEZZ(SP: 0, Slot: 0): Read async completed, workItem 0x7f2486432760, resumeStatus DEVICE_NOT_VALID_FOR_PLATFO c4_safe_ktrace INFO OBJ 3 100C0 : ModMgmt: CLEAR enclFaultLedReason Mezzanine RP Fault. <<<====== Fault detected in Root Port (RP) .......... c4_safe_ktrace INFO OBJ 3 100C0 : fbe_module_mgmt_check_module_state, SPB Mezzanine 0, state:ENABLED, substate:GOOD c4_safe_ktrace INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 0, state ENABLED, substate GOOD c4_safe_ktrace INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 1, state MISSING, substate MISS_SFP <<<=== SFP not detected c4_safe_ktrace INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 2, state ENABLED, substate GOOD c4_safe_ktrace INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 3, state ENABLED, substate GOOD c4_safe_ktrace INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 4, state ENABLED, substate GOOD c4_safe_ktrace INFO OBJ 3 100C0 : fbe_module_mgmt_check_port_state Setting SPB Mezzanine 0, Port 5, state ENABLED, substate GOOD
Resolution
Para resolver este problema, vuelva a confirmar los módulos de E/S, ya que fallaron inicialmente, mediante los comandos que se enumeran a continuación.
Nota: Estos comandos no requieren raíz, pero sí un arreglo en buen estado, por lo que, antes de ejecutarse, confirme que su arreglo esté completamente operativo, como tal:
Comando # 1:
uemcli -no /sys/general healthcheck -output csv -detail
Resultados de ejemplo:
"Error code" "Warning: One or more asynchronous replication sessions, or one or more NAS Server or file system synchronous replication sessions, exist. This could cause problems during upgrade. Pause the replication sessions on the production array prior to starting the upgrade and resume them after completing the upgrade. [Warning Code: platform::check_replication_health_4]" "Warning: One or more NAS servers may not be in a healthy state. You can continue with the upgrade, but it is recommended that you record the error code and contact your service provider. [Warning Code: dm::check_nas_servers_health_3]" Operation completed successfully.
Nota: Menciona "Upgrade" porque este es el comando que se utiliza antes de realizar actualizaciones no disruptivas (NDU). Sin embargo, el motivo por el cual se muestran estos mensajes es porque el arreglo (ambos SP) se deben reiniciar.
El comando #2 también puede requerir un reinicio, por lo que es importante que esta evaluación del estado se realice sin ningún [Código de error:].
[Las advertencias] se pueden ignorar, pero el comando #2 indica el mensaje
"Do you still want to continue," Y puede ingresar "sí". Sin embargo, la recomendación del soporte de Dell es resolver todas las advertencias y los errores en la evaluación del estado antes de continuar.
#2 (Óptimo) - puede ir al Comando #2
"Error code" Operation completed successfully.
Comando #2:
svc_change_hw_config -e
Resultado esperado:
service@CKMxxxxxxxx spa:~/user# svc_change_hw_config -e Checking if both SPs are in Normal mode...OK INFO: Beginning eSLIC or CNA Hardware Upgrade... WARNING: This operation will cause several reboots to occur on the Storage Processors. WARNING: Do NOT proceed further if the user is unaware of this downtime! ==============================System Information=============================== Task Manager Command: /opt/ptm/task_mgr.pl Starts at: Sat Oct 5 10:03:47 2019 Dual SP: Yes SP: b Platform: OBERON Original Primary: Yes Model: Unity xxx Serial Number: xxxxxxxxxxxxx Total number of attempts: 0 =============================================================================== ==========================Time Estimate for All Tasks========================== Task name [ 22 tasks in total ] Estimated Status Time(Minutes) 1 Slic wait for system ready slic (local) 3 2 Core run pre upgrade health checks (local) 2 3 ESLIC check eslic configuration (local) 1 4 Core enable auto start (local) 0 5 Core clear boot counters (local) 0 6 Core clear boot counters (remote) 0 7 Core force vdms off sp (remote) 2 8 ESLIC set esp boolean (remote) 1 9 Core disable quickboot (remote) 1 10 Core reboot peer sp if required (local) 10 11 Core start c4 (remote) 5 12 Core wait for system ready on peer 3 13 Core force vdms off sp (local) 2 14 ESLIC set esp boolean (local) 1 15 Core disable quickboot (local) 1 16 Core reboot sp if required (local) 10 17 Core start c4 (local) 5 18 Core wait for system ready (local) 3 19 ESLIC final configuration check (local) 1 20 Core clean up (local) 0 21 Core clean up peer (local) 0 22 Core disable auto start (local) 0 =============================================================================== =========================Estimated Time for Services ========================== Current Time: 10:03 Estimated Time when eSLIC will be complete: 10:52 =============================================================================== Do you wish to continue [ yes or no ]? >
=====================================Tasks===================================== 20:41 [ 17/22 ] Core start c4 (local) 5 minutes =============================================================================== 20:41 [ 18/22 ] Core wait for system ready (local) 3 minutes =============================================================================== 20:41 [ 19/22 ] ESLIC final configuration check (local) 30 seconds =============================================================================== 20:41 [ 20/22 ] Core clean up (local) 5 seconds =============================================================================== 20:41 [ 21/22 ] Core clean up peer (local) 5 seconds =============================================================================== 20:41 [ 22/22 ] Core disable auto start (local) 5 seconds =============================================================================== ===================================SUMMARY===================================== Status: Success Actual Time Spent: 16452 minutes Total Number of attempts: 1 Log File: /var/tmp/ptm/ptm.log =====================================END=======================================
/EMC/backend/log_shared/EMCSystemLogFile.log:
Platform_Basic 30018 [NOTICE] Audit: Service user executed the following service script command: svc_change_hw_config -e IOModule 30010 [INFO] User: Starting the hardware configuration commit operation Platform_Basic 30018 [NOTICE] Audit: Service user executed the following service script command: svc_dc -pbc udoctor IOModule 30014 [INFO] User: Completed task <17> of <22> (Restarting services) IOModule 30014 [INFO] User: Completed task <18> of <22> (Waiting for system ready state) IOModule 30014 [INFO] User: Completed task <19> of <22> (Checking if upgrade complete) IOModule 30014 [INFO] User: Completed task <20> of <22> (Cleaning up) IOModule 30014 [INFO] User: Completed task <21> of <22> (Cleaning up) IOModule 30014 [INFO] User: Completed task <22> of <22> (Disabling automatic restart) IOModule 30011 [NOTICE] User: The hardware configuration has been successfully committed Health 6044f [INFO] User: Storage Processor SP A is operating normally Health 6044f [INFO] User: Storage Processor SP B is operating normally
Una vez que se haya mostrado el resultado anterior, actualice la interfaz de usuario de Unisphere y vea si el estado ha vuelto a la normalidad (esperado).
Si no es así, comuníquese con el soporte técnico de Dell y consulte este artículo.
Nota: Puede encontrar más información sobre este comando en el documento Notas técnicas de los comandos de servicio de la familia Dell EMC Unity™, en https://www.dell.com/support/home/en-us
Additional Information
NOTA: También existe la posibilidad de que una batería de tipo botón esté defectuosa, lo que genera un problema de reinicio del SP con un falso positivo en la interfaz de usuario.
Consulte la base de conocimientos 000069296 Dell Unity: Batería de tipo botón en el procesador de almacenamiento (corregible por Dell)