PowerScale, Isilon, OneFS: Cómo apagar correctamente un clúster

Resumen: Prácticas recomendadas para apagar correctamente el PowerScale Cluster e incluye información sobre los riesgos asociados con un apagado incorrecto del clúster. Procedimientos paso a paso para apagar correctamente el clúster. Algunos pasos se deben ejecutar entre 4 y 8 semanas antes de la actualización programada. ...

Este artículo se aplica a Este artículo no se aplica a Este artículo no está vinculado a ningún producto específico. No se identifican todas las versiones del producto en este artículo.

Instrucciones

Introducción

En este artículo, se proporciona el procedimiento para apagar correctamente el Dell Isilon Cluster e incluye información sobre los riesgos asociados con un apagado incorrecto.
 

Advertencia: El apagado incorrecto del clúster puede provocar problemas de integridad y disponibilidad de datos.


Los nodos que se apagan incorrectamente en el clúster no deben estar sin alimentación del sistema durante más tiempo que la vida útil de la batería NVRAM.
Esto es aproximadamente de tres a cinco días, según el tipo de nodo.
Si los datos aún se almacenan en un registro de nodo mientras el nodo está sin alimentación durante más tiempo que la duración de la batería de NVRAM, se pierden los datos.
Si esto sucede en varios nodos, será necesario reconstruir el clúster.

Comuníquese con el soporte técnico de Dell Isilon para obtener ayuda si tiene preguntas sobre los procedimientos o la información de este artículo.


Procedimiento

El procedimiento de apagado del clúster requiere credenciales raíz y acceso de la consola en serie a los nodos del clúster. El procedimiento se divide en las siguientes fases.

Lea todo el procedimiento antes de comenzar el proceso de apagado. Esto garantiza que comprenda el contexto y el orden para completar cada paso.
 

Advertencia: Si está ejecutando una versión de OneFS que alcanzó la finalización del ciclo de vida (EOSL), actualice a una versión compatible de OneFS.



Fase 1: Realizar el mantenimiento preventivo.
Estos pasos se realizan aproximadamente de 4 a 8 semanas antes del apagado programado. El propósito de esta fase es identificar problemas de hardware o firmware desconocidos o latentes que puedan impedir el procedimiento de apagado.
 

Advertencia: Dell recomienda encarecidamente seguir todos los pasos de la Fase 1 antes de apagar el Isilon Cluster.

Si las circunstancias requieren un apagado inmediato en todo el clúster, puede apagar todos los nodos en forma simultánea a través de la interfaz de línea de comandos de OneFS o la interfaz de administración web de OneFS.

Dell recomienda encarecidamente seguir todos los pasos de la Fase 3 para preservar la integridad de los datos si hay un procedimiento de apagado de emergencia.
  1. Cargue registros para obtener referencias históricas si es necesario.
# isi diagnostics gather start --gather-mode full
  1. Realice o solicite una evaluación del estado de Isilon.
    • Esto evalúa el estado del clúster para asegurarse de que se encuentre en un estado operativo bueno y con soporte.
    • El cliente puede realizarla mediante PowerScale: cómo ejecutar la herramienta de análisis de clúster IOCA
    • Lo puede realizar el equipo reactivo remoto (atención al cliente). Esto está disponible para todos los clientes con un acuerdo de mantenimiento activo para clústeres en versiones de código compatibles. Si cumple con estos requisitos, abra una solicitud de servicio (SR) en el sitio de soporte en línea de Dell para solicitar una “evaluación del estado de Isilon”. Y proporcione los registros completos para la evaluación del estado a través de la ejecución de este comando
# isi diagnostics gather start --gather-mode full            

* La evaluación del estado no está destinada a solucionar problemas del clúster ni a evaluar la configuración, el rendimiento o el flujo de trabajo del clúster.

  1. Realice un “reinicio en frío” de cada nodo siguiendo los siguientes pasos. Se debe programar un período de mantenimiento para esta actividad.

Nota: Este proceso le permite identificar cualquier error de memoria o modo de falla de la unidad que solo se detecta cuando se vuelve a encender el nodo.

 

Nota: Este proceso es disruptivo para todas las conexiones, excepto para NFSv3. Póngase en contacto con el soporte de Isilon para obtener ayuda con instrucciones sobre un proceso más largo que no interrumpe la actividad del cliente mientras se reinician los nodos para esta prueba de mantenimiento.
 
  1. Apague cada nodo del clúster uno por uno. Para apagar cada nodo:
    1. Abra una conexión SSH a cualquier nodo. Apague cada nodo a través de la ejecución del siguiente comando
isi config
shutdown <node_lnn>
  1. Verifique que cada nodo se haya apagado con la confirmación de que el LED verde indicador de alimentación en la parte posterior del nodo ya no esté iluminado.
  2. Presione el botón de encendido para volver a encender el nodo.
  3. Verifique que el nodo se ha reincorporado al clúster y que está funcionando a través del comando isi status -q y busque OK en la columna Health DASR de la salida.
  4. Si un nodo tiene problemas que se indican en la columna Health DASR o no puede reincorporarse al clúster, resuelva estos problemas antes de apagar el nodo siguiente.

Ejemplo de un problema. El nodo 1 se reincorporó al clúster correctamente, pero en la columna Health DASR, se indica que necesita atención.

mycluster-1# isi status -q

Cluster Name: mycluster
Cluster Health:     [ ATTN]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-A-- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only   
  1. Vuelva a comprobar el estado de todo el clúster después de reiniciar cada nodo. Abra una conexión SSH a cualquier nodo y ejecute el siguiente comando:
 isi status -q
Verifique que en la columna Health DASR de cada nodo diga OK.

 

Nota: Si el tiempo no permite un enfoque de reinicio en frío para cada nodo, puede realizar en su lugar un reinicio gradual o un “reinicio en caliente” para descubrir en forma proactiva algunos problemas latentes de hardware a través de la ejecución del siguiente comando para cada nodo:
isi config
reboot <node_lnn>

Sin embargo, Dell recomienda encarecidamente utilizar el enfoque de reinicio en frío para identificar de manera más eficaz los problemas latentes de hardware.
 

Fase 2: Apagar cada nodo del clúster.
Estos pasos se realizarán el día en que apague el Isilon Cluster. Durante un apagado en todo el clúster, algunos factores pueden afectar o retrasar el proceso de apagado. Por ejemplo, las escrituras de datos pendientes en un nodo podrían afectar el apagado. El propósito de los pasos 1 y 2 es garantizar que todos los clientes se desconecten del clúster y que los datos se guarden correctamente desde los registros del nodo al sistema de archivos antes de ejecutar el comando de apagado. Si tiene clientes iSCSI, asegúrese de apagar los clientes antes de que el servicio iSCSI se deshabilite.

En el Paso 3, se describe cómo apagar cada nodo del clúster de manera secuencial a través de una consola en serie. Este método se recomienda porque le permite verificar que cada nodo esté correctamente apagado antes de continuar con el siguiente nodo y realizar ajustes o solucionar problemas según sea necesario para garantizar un apagado adecuado del clúster. Sin embargo, este método puede tardar mucho tiempo, ya que requiere la conexión de una consola en serie a cada nodo para ejecutar el comando de apagado. La sección Apagar todos los nodos del clúster simultáneamente describe cómo utilizar la interfaz de línea de comandos de OneFS o la interfaz de administración web de OneFS para apagar el clúster. Este método requiere menos tiempo que el paso 3, pero hace que sea más difícil identificar los nodos que tienen problemas durante el proceso de apagado.

  1. Isilon recomienda aislar el clúster de los clientes para asegurarse de que los clientes con actividad intensiva de escritura no impidan el procedimiento de apagado. Para ello, deshabilite los servicios orientados al cliente que se ejecutan en el clúster. Realice el siguiente procedimiento para deshabilitar los servicios orientados al cliente:
    1. Identifique los servicios o protocolos orientados al cliente que se ejecutan en el clúster a través de la ejecución de los siguientes comandos para cada servicio orientado al cliente:
isi services apache2
isi services isi_hdfs_d
isi services isi_iscsi_d
isi services ndmpd
isi services nfs
isi services smb
isi services vsftpd
  1. B. Documente los servicios que están “habilitados” en el clúster en función de la salida de cada comando. En el siguiente ejemplo, el servicio SMB está habilitado, mientras que el servicio NFS está deshabilitado:
mycluster-4# isi services smb
Service 'smb' is enabled.
mycluster-4# isi services nfs
Service 'nfs' is disabled.
mycluster-4#
  1. Deshabilite los servicios orientados al cliente. Después de este paso, todos los clientes pierden inmediatamente la conexión con el clúster. Para deshabilitar un servicio, ejecute el siguiente comando relacionado con el servicio que habilitó.
isi services apache2 disable
isi services isi_hdfs_d disable
isi services isi_iscsi_d disable
isi services ndmpd disable
isi services nfs disable
isi services smb disable
isi services vsftpd disable

Si tiene clientes iSCSI, asegúrese de que los clientes iSCSI hayan desmontado sus LUN antes de realizar el paso 2. Ejecute el comando isi iscsi list para confirmar que todos los clientes iSCSI estén desconectados del clúster.


Nota: Si está deshabilitando el servicio iSCSI, asegúrese de haber apagado los clientes iSCSI antes de ejecutar el comando isi_iscsi_d disable comando. La interrupción de un LUN iSCSI montado podría provocar daños en el cliente, lo que normalmente requiere una recuperación desde el respaldo.
 
  1. Transfiera las escrituras de datos almacenadas en los registros del nodo al sistema de archivos mediante la ejecución del comando isi_for_array isi_flush comando. En cada nodo aparece una salida similar a la siguiente:
    Nota: cuando se ejecuta isi_flush NO se detendrá hasta que se complete el vaciado en un nodo o el nodo se apague o entre en estado de alarma. No puede ctrl+c fuera del flush en caso de que haya problemas.
     
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
mycluster-1: Cache flushing complete.

 

Nota: En un clúster grande con una gran cantidad de escrituras pendientes, este paso puede tardar varios minutos en completarse.

 

Si un nodo no puede vaciar sus datos, recibirá una salida similar a la siguiente, en la que el nodo 1 y el nodo 2 fallan en su comando de vaciado:
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining
mycluster-2: Flushing cache...
fsync: giving up on dirty

Ejecute el comando isi_for_array isi_flush de nuevo. Si algún nodo no se puede vaciar, comuníquese con el soporte técnico de Dell Isilon. Todos los nodos se deben vaciar correctamente antes de continuar con el siguiente paso.

 

Nota: Si elimina una fuente de alimentación de un nodo que no ha vaciado datos de su registro al sistema de archivos, el riesgo de pérdida de datos aumenta considerablemente. Comuníquese con el soporte técnico de Dell Isilon si necesita ayuda con el procedimiento de apagado.

 

  1. Apague cada nodo del clúster de forma secuencial y controle la salida. Este enfoque se recomienda porque le permite identificar y resolver cualquier problema antes de apagar el siguiente nodo del clúster. Apague cada nodo a través de los siguientes pasos:

Advertencia: NO ejecute el comando isi_for_array shutdown -p para apagar el clúster.

 

Cualquier nodo que entre en estado de alarma o se reinicie en este paso es un nodo que requiere más investigación. En particular, todos los nodos deben vaciar los datos del registro del nodo al sistema de archivos antes de continuar.

 

Advertencia: Si elimina una fuente de alimentación de un nodo que no ha vaciado datos de su registro al sistema de archivos, el riesgo de pérdida de datos aumenta considerablemente. Comuníquese con el soporte técnico de Dell Isilon si necesita ayuda con el procedimiento de apagado.

 

  1. Conecte una consola en serie a cada nodo.
  2. Ejecute el siguiente comando:
isi config
shutdown
Cuando el nodo se apaga correctamente, aparece una salida similar a la siguiente:
Powering the system off using ACPI

 

Nota: Si no tiene acceso a los nodos a través de un conmutador keyboard, video, mouse (KVM) y, en su lugar, debe utilizar una laptop, este paso puede tardar horas en completarse.

 

  1. C. Observe la consola y busque eventos de falla relacionados con el hardware. Los guardados correctos del registro del nodo se seleccionan en las siguientes variaciones de la salida:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully

2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving.

An example of a node journal save failure is highlighted in the output below:
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:

Si recibe un error que indica que el registro del nodo no guardó, puede guardar manualmente el registro a través de los pasos de la Fase 3.
 

Apagar todos los nodos del clúster en forma simultánea.


Si se produce una emergencia, puede apagar todos los nodos del clúster en forma simultánea. Sin embargo, este método no se recomienda porque no le permite monitorear el estado y la salida de cada nodo en caso de que se produzca un problema. Si decide seguir estos pasos, Dell recomienda encarecidamente seguir todos los pasos de la Fase 3 para verificar que todos los nodos se hayan apagado correctamente después de realizar los procedimientos que se indican a continuación.

 

Nota: Cualquier nodo que entre en estado de alarma o se reinicie en este paso es un nodo que requiere más investigación. En particular, todos los nodos deben vaciar los datos del registro del nodo al sistema de archivos antes de continuar.

Advertencia: Si elimina una fuente de alimentación de un nodo que no ha vaciado datos de su registro al sistema de archivos, el riesgo de pérdida de datos aumenta considerablemente. Comuníquese con el soporte técnico de Dell Isilon si necesita ayuda con el procedimiento de apagado.

 

Para apagar todos los nodos del clúster, utilice la interfaz de línea de comandos de OneFS o la interfaz de administración web de OneFS. 

 

En la interfaz de la línea de comandos de OneFS, ejecute el siguiente comando:
# isi config shutdown all

 

Nota: NO ejecute el comando isi_for_array shutdown -p para apagar el clúster desde la interfaz de administración web de OneFS, en OneFS 8.0 y versiones posteriores.


Fase 3: Verificar que los nodos se hayan apagado correctamente.
Confirme que los nodos se hayan apagado correctamente observando el diodo emisor de luz (LED) indicador de alimentación en la parte posterior del nodo. Todos los LED indicadores de alimentación deben estar oscuros o apagados. Esto indica que el nodo se apagó correctamente.
 

Advertencia: Si un nodo no se apagó correctamente y desconecta la fuente de alimentación del nodo, la posibilidad de pérdida de datos aumenta considerablemente. La recuperación de datos requiere un procedimiento de recuperación prolongado y, a veces, una reconstrucción completa del clúster.

 

Advertencia: Comuníquese con el soporte técnico de Dell si tiene dudas sobre el éxito de la operación de apagado, por ejemplo, si no se apaga el nodo o no se guarda el registro.


Si la luz indicadora de alimentación en la parte posterior del nodo sigue encendida, significa que el nodo no se ha apagado. Si el nodo no se ha apagado o si recibe una salida de la consola que indica que el registro del nodo no se guardó correctamente (desde la Fase 2, Paso 3C), debe guardar manualmente el registro para asegurarse de que esos datos se confirmen en el disco antes de apagar el nodo.

  1. Para guardar manualmente el registro y apagar el nodo, realice los siguientes pasos:
    1. Si el nodo responde a la interfaz de la línea de comandos, reinicie el nodo mediante la ejecución del siguiente comando:
# isi config reboot
  1. Si el nodo no responde a la interfaz de línea de comandos, reinicie manualmente el nodo manteniendo presionado el botón de encendido en la parte posterior del nodo. Esto hace que el nodo se apague. Espere 30 segundos y, a continuación, presione el botón de encendido una vez para arrancar el respaldo del nodo nuevamente. Avance al siguiente paso.

 

Advertencia: Se recomienda reiniciar manualmente el nodo solo para este paso. No apague manualmente el nodo por ninguna otra condición. Puede provocar la pérdida de datos.

 

  1. Después de reiniciar el nodo, vuelva a iniciar sesión y realice los siguientes pasos para guardar el registro:
    1. Intente volver a apagar correctamente el nodo a través de la ejecución del siguiente comando:
# isi config shutdown
  1. Si la salida aún indica que el registro no se guardó, guarde manualmente el registro a través de la ejecución del siguiente comando:
# isi_save_journal
  1. Si el registro aún no se guarda, desmonte el sistema de archivos /ifs y fuerce el guardado del registro a través de la ejecución de los siguientes comandos:
# isi_kill_busy && umount /ifs
  1. Ejecute el comando isi_checkjournal para verificar que el registro se haya guardado.
# isi_checkjournal
  1. No vaya al paso siguiente hasta que la salida indique que el registro se guardó correctamente.

Comuníquese con el soporte técnico de Dell si es necesario.
 

Fase 4: Desconectar la fuente de alimentación.
Solo después de que el clúster se haya apagado correctamente y los nodos estén apagados se puede desconectar la fuente de alimentación del clúster.
 

Advertencia: Si un nodo no se apagó correctamente, no desconecte la fuente de alimentación del nodo. Esto puede provocar la pérdida de datos, un procedimiento de recuperación prolongado y, en ocasiones, una reconstrucción completa del clúster.


Baterías de la NVRAM
Cuando un cliente escribe un archivo en un nodo, las escrituras se almacenan primero en la RAM no volátil (NVRAM) alojada en la tarjeta de registro del nodo. En algún momento después, OneFS confirma esas escrituras en el disco. Para proteger los datos almacenados en la NVRAM en caso de una interrupción de alimentación no programada, cada nodo está equipado con baterías para la NVRAM (dos para redundancia). Un nodo que está apagado, pero que permanece conectado a una fuente de alimentación, continúa actualizando las baterías de la NVRAM. Cuando la fuente de alimentación se desconecta del nodo, las baterías de la NVRAM comienzan a agotarse. La duración de la batería en la generación actual de nodos (X200, S200, X400 y NL400) es de aproximadamente cinco días. En la generación anterior de nodos, la duración de la batería de la NVRAM es de aproximadamente tres días.

Dell Technologies recomienda apagar correctamente los nodos para evitar depender de baterías de la NVRAM durante un período de tiempo considerable durante una interrupción de la alimentación.
 

Nota: Para obtener más información sobre cómo Isilon utiliza la NVRAM para preservar la integridad de los datos, consulte la sección “Estructura del sistema de archivos” en las guías de administración de la CLI y administración web de OneFS.


Si las baterías de la NVRAM de un nodo se agotan por completo, el nodo arranca en modo de solo lectura y permanece en modo de solo lectura durante aproximadamente 30 minutos hasta que las baterías de la NVRAM se cargan por completo. Cuando se recargan las baterías, el nodo vuelve automáticamente al modo normal de lectura/escritura.
 

Advertencia: Si los datos aún se almacenan en la NVRAM debido a un apagado incorrecto, y un nodo se queda sin alimentación del sistema durante más tiempo que la duración de la batería de la NVRAM, experimentará una pérdida de datos, un procedimiento de recuperación prolongado y, a veces, una reconstrucción completa del clúster.



Fase 5: Encender cada nodo del clúster.
Estos pasos se realizarán cuando tenga todo listo para reiniciar el Isilon Cluster.

  1. Restaure la fuente de alimentación a cada nodo.
  2. Presione el botón de encendido en el panel frontal o en la parte posterior de cada nodo para encenderlos.
  3. Una vez que todos los nodos se hayan encendido, ejecute el comando isi status -q para revisar el estado del clúster. Verifique que todos los nodos estén OK en la columna Health DASR y que no estén en modo de solo lectura (R) antes de continuar. Para un clúster en buen estado, debe aparecer una salida similar a la siguiente:
Cluster Name: mycluster
Cluster Health:     [ OK ]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-OK- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only   
  1. Consulte la lista de servicios habilitados que se crearon en la Fase 2, Paso 1B y habilite los servicios que se deshabilitaron a través de la ejecución de uno o más de los siguientes comandos:
isi services apache2 enable
isi services isi_hdfs_d enable
isi services isi_iscsi_d enable
isi services ndmpd enable
isi services nfs enable
isi services smb enable
isi services vsftpd enable
  1. Verifique que los clientes puedan conectarse al clúster y realizar sus flujos de trabajo habituales. El clúster debe funcionar con normalidad.

 

  1. Uploy una recopilación completa de registros:
# isi_gather_info --esrs
  1. Realice o solicite una evaluación del estado de Isilon por parte del equipo reactivo remoto (atención al cliente).

Pasos para ejecutar las evaluaciones del estado.

PowerScale: cómo ejecutar la herramienta de análisis de clúster IOCA.

  1. Solicite una evaluación del estado a través del equipo de soporte reactivo remoto.

Esto está disponible para todos los clientes con un acuerdo de mantenimiento activo para clústeres en versiones de código compatibles.

Si cumple con estos requisitos, abra una solicitud de servicio (SR) en el sitio de soporte en línea de Dell para solicitar una “evaluación del estado de Isilon”.

* La evaluación del estado no está destinada a solucionar problemas del clúster ni a evaluar la configuración, el rendimiento o el flujo de trabajo del clúster.

Información adicional

Productos afectados

PowerScale, Isilon

Productos

Isilon
Propiedades del artículo
Número del artículo: 000018989
Tipo de artículo: How To
Última modificación: 06 nov 2025
Versión:  18
Encuentre respuestas a sus preguntas de otros usuarios de Dell
Servicios de soporte
Compruebe si el dispositivo está cubierto por los servicios de soporte.