Dell VxRail: evaluación del estado "ism_fix" o "rac_fix" para corregir problemas de iSM e iDRAC
Resumen: VxVerify en VxRail Manager puede intentar corregir la falla de iDRAC e iSM reiniciando iDRAC y los servicios de nodos de VxRail relacionados.
Síntomas
VxVerify en VxRail Manager puede intentar corregir la falla de iDRAC e iSM reiniciando iDRAC y los servicios de nodos de VxRail relacionados.
Antes de ejecutar pruebas directamente en cada nodo, mediante el minion de VxVerify, VxVerify en VxRail Manager primero consulta el iSM de Dell (dcism o dellism).
Como alternativa, si se detectan problemas de iDRAC cuando se ejecutan evaluaciones del estado, esta corrección automática se intenta antes de volver a intentar las evaluaciones del estado.
Si la opción Autofix está habilitada (ya sea por el perfil de prueba o con el argumento --fix), el intento de corregir esto tarda alrededor de 10 minutos.
El resultado de esta corrección automática se muestra como uno de los siguientes:
|
Resultados de la prueba
|
Código del resultado
|
Interpretación de los resultados
|
|
Aprobada
|
0
|
La corrección del estado de iSM era innecesaria o no estaba habilitada en el perfil de prueba.
|
|
Advertencia
|
1
|
El estado de Dell iSM funcionaba correctamente después del reinicio. |
| Error | 2 |
Dell iSM e iDRAC se reiniciaron, pero iSM no se ejecutó correctamente después.
|
| Crítica | 3 |
Esta prueba no tiene resultados críticos.
|
Esta corrección también se puede activar después de la ejecución de las comprobaciones de VxVerify, si fallan las consultas de iDRAC. En ese caso, el minion de VxVerify se ejecutará por segunda vez después de la corrección. Las pruebas repetidas comprueban si se corrigieron los problemas de iSM e iDRAC.
Cada prueba que pasa no aparece en el informe de resumen, para facilitar la lectura.
A continuación, se muestra un ejemplo del resultado de la evaluación del estado:
#========================#======#=========#====================================================================#==============# | Hostname / Category |Status Dell_KB | Warnings or Failures, unless tests Passed ; Product S.N. | #========================#======#=========#====================================================================#==============# | _cluster | Warning 205179 | ism_fix: iSM and iDRAC fixed for node1.lab.local, node4.lab.local .| | `` | Warning 205179 | rac_fix: iSM and iDRAC fixed for node2.lab.local |
El 'ism_fix' se ejecuta antes que los minions y los comandos de corrección se ejecutan de manera remota desde VxRM mediante SSH. Por ejemplo:
Running VxVerify 3.21.108, pre-upgrade healthcheck on VxRail 7.0.372.
In case of program errors consult article https://www.dell.com/support/kbdoc/000066460.
Step 1: Fixing iSM issue, prior to running health-checks, on node: lab-08-esxi-01.lab.local
Step 1: Fixing iSM issue, prior to running health-checks, on node: lab-08-esxi-02.lab.local
Step 1: Stopping ISM and platform service on lab-08-esxi-01.lab.local
Step 1: Stopping ISM and platform service on lab-08-esxi-02.lab.local
Step 1: Pausing for 266 seconds more after iDRAC restarted on ['lab-08-esxi-01.lab.local', 'lab-08-esxi-02.lab.local']
...
Step 1: Starting iSM on lab-08-esxi-01.lab.local
Step 1: Starting iSM on lab-08-esxi-02.lab.local
Step 1: Pausing for 84 seconds more after Dell iSM started on ['lab-08-esxi-01.lab.local', 'lab-08-esxi-02.lab.local']
...
Step 1: Starting Platform service on lab-08-esxi-01.lab.local
Step 1: Starting Platform service on lab-08-esxi-02.lab.local
La variable Autofix también se puede ver en el vxv.log anterior a la minion_run Eventos:
2022-11-11 09:51:26-INFO [ism_fix] Fixing phase 1 Dell ISM on node on lab-08-esxi-01.lab.local
2022-11-11 09:51:31-INFO [ism_fix] lab-08-esxi-01.lab.local Auto-fix continuing with vSAN objecthealth: green
2022-11-11 09:51:32-INFO [ism_fix] iDRAC restarting on lab-08-esxi-01.lab.local: _
...
2022-11-11 09:58:58-INFO [ism_fix] Checking hosts for auto-fix success: ['lab-08-esxi-01.lab.local', 'lab-08-esxi-02.lab.local']Causa
Para corregir que dcism no se ejecute, VxVerify realiza los siguientes pasos si esta característica de corrección automática está habilitada en el perfil de prueba:
- Detener servicios:
sfcbd, dcism, PTAgent (si está presente) y servicio de plataforma - Reinicie iDRAC y espere 5 minutos para que iDRAC vuelva a estar en línea
- Iniciar servicios (enumerados anteriormente)
Resolución
La corrección automática para iSM informa si se realizó correctamente o falló en función del 'dcism' o 'dellism' cuando VxVerify los sondea de manera remota Los minions se inician de manera normal.
El estado de iSM se vuelve a probar mediante el comando 'dcism' evaluación del estado directamente en ese nodo. Esto puede informar un resultado diferente, ya que se sondea unos minutos después de la corrección automática. Si el resultado difiere, la prueba "dcism" debe considerarse como el resultado más preciso para el estado de iSM.
Los resultados de los comandos para iniciar los servicios se pueden encontrar en el vxv.log (consulte el artículo 66460: Guía de solución de problemas de VxVerify )
2022-11-25 09:16:26-DEBUG [ism_fix] node-04.lab.local iSM start: _ 2022-11-25 09:18:26-DEBUG [ism_fix] node-04.lab.local Platform service start: Starting Platform Service Daemon. Check hostd status. hostd is ready. Platform Service started. 2022-11-25 09:18:26-INFO [ism_fix] Checking hosts for auto-fix success: ['node-04.lab.local'] 2022-11-25 09:18:26-INFO [ism_check] Querying DC or Dell ISM status on host 2022-11-25 09:18:26-INFO [ism_check] iSM status on node-04.lab.local : iSM is active (running)
Si iSM no se puede corregir mediante los pasos anteriores, que la evaluación del estado puede ejecutar automáticamente, consulte el artículo: Dell VxRail: La evaluación del estado del nodo falla para la prueba “dcism”
Información adicional
Forzar el uso de ism_fix (reinicio de iDRAC)
La corrección automática se ejecuta si "dcism" o "dellism" no están en ejecución cuando se consultan desde VxRM. Sin embargo, esto solo se aplica si el perfil de prueba o el argumento --fix habilitan la corrección automática.
Como alternativa, se puede recomendar un reinicio de iDRAC para abordar otros problemas y, por lo tanto, la corrección automática se puede habilitar a través de un argumento de VxVerify.
Esta es una manera más segura de recuperar la comunicación de iDRAC que un reinicio directamente desde la interfaz de usuario de iDRAC, ya que VxVerify apaga iSM y los servicios relacionados antes de reiniciar iDRAC y, a continuación, vuelve a activar los servicios en el orden correcto.
El argumento de reemplazo puede solicitar que todos los nodos tengan un reinicio escalonado de iDRAC o una lista de nodos específicos.
Para aplicar la corrección a los nodos (incluso si iSM se ejecuta normalmente), lo que reiniciará iDRAC y los servicios relacionados:
-
O bien aplique el procedimiento de reinicio forzado de iSM e iDRAC ("ism_fix") a todos los nodos:
./vxverify.sh -a ism_fix=all
-
O bien, aplique 'ism_fix' a los nodos especificados en una lista (sin espacios) (los nombres cortos o completos funcionan):
python vxverify3.pyc <any_other_arguments> -a ism_fix=lab-08-esxi-01,lab-08-esxi-02
En los ejemplos anteriores se muestran los métodos Shell y Python para ejecutar VxVerify, pero los argumentos funcionan con cualquiera de las dos sintaxis.
El argumento -a (--additional-params) permite especificar un número ilimitado de pares de argumentos, por lo que debe venir después de todos los demás argumentos estándar, como --verbose.
Cuando se utiliza este argumento, el reemplazo se puede ver en el vxv.log de la siguiente manera:
INFO [ism_fix] Running fix for Dell ISM on node: lab-08-esxi-01, due to override argument: lab-08-esxi-01.lab.local,lab-08-esxi-02.lab.local
or
INFO [ism_fix] Running fix for Dell ISM on node: lab-08-esxi-02, due to override argument: all