PowerScale, Isilon, OneFS: Cómo apagar correctamente un clúster
Resumen: Prácticas recomendadas para apagar correctamente el PowerScale Cluster e incluye información sobre los riesgos asociados con un apagado incorrecto del clúster. Procedimientos paso a paso para apagar correctamente el clúster. Algunos pasos se deben ejecutar entre 4 y 8 semanas antes de la actualización programada. ...
Instrucciones
Introducción
En este artículo, se proporciona el procedimiento para apagar correctamente el Dell Isilon Cluster e incluye información sobre los riesgos asociados con un apagado incorrecto.
Los nodos que se apagan incorrectamente en el clúster no deben estar sin alimentación del sistema durante más tiempo que la vida útil de la batería NVRAM.
Esto es aproximadamente de tres a cinco días, según el tipo de nodo.
Si los datos aún se almacenan en un registro de nodo mientras el nodo está sin alimentación durante más tiempo que la duración de la batería de NVRAM, se pierden los datos.
Si esto sucede en varios nodos, será necesario reconstruir el clúster.
Comuníquese con el soporte técnico de Dell Isilon para obtener ayuda si tiene preguntas sobre los procedimientos o la información de este artículo.
Procedimiento
El procedimiento de apagado del clúster requiere credenciales raíz y acceso de la consola en serie a los nodos del clúster. El procedimiento se divide en las siguientes fases.
- Fase 1: Realizar el mantenimiento preventivo
- Fase 2: Apagar cada nodo del clúster
- Fase 3: Verificar que los nodos se hayan apagado correctamente
- Fase 4: Desconectar la fuente de alimentación
- Fase 5: Encender cada nodo del clúster
- Fase 6: Ejecutar una evaluación del estado en el clúster
Lea todo el procedimiento antes de comenzar el proceso de apagado. Esto garantiza que comprenda el contexto y el orden para completar cada paso.
Fase 1: Realizar el mantenimiento preventivo.
Estos pasos se realizan aproximadamente de 4 a 8 semanas antes del apagado programado. El propósito de esta fase es identificar problemas de hardware o firmware desconocidos o latentes que puedan impedir el procedimiento de apagado.
Si las circunstancias requieren un apagado inmediato en todo el clúster, puede apagar todos los nodos en forma simultánea a través de la interfaz de línea de comandos de OneFS o la interfaz de administración web de OneFS.
Dell recomienda encarecidamente seguir todos los pasos de la Fase 3 para preservar la integridad de los datos si hay un procedimiento de apagado de emergencia.
- Cargue registros para obtener referencias históricas si es necesario.
# isi diagnostics gather start --gather-mode full
- Realice o solicite una evaluación del estado de Isilon.
- Esto evalúa el estado del clúster para asegurarse de que se encuentre en un estado operativo bueno y con soporte.
- El cliente puede realizarla mediante PowerScale: cómo ejecutar la herramienta de análisis de clúster IOCA
- Lo puede realizar el equipo reactivo remoto (atención al cliente). Esto está disponible para todos los clientes con un acuerdo de mantenimiento activo para clústeres en versiones de código compatibles. Si cumple con estos requisitos, abra una solicitud de servicio (SR) en el sitio de soporte en línea de Dell para solicitar una “evaluación del estado de Isilon”. Y proporcione los registros completos para la evaluación del estado a través de la ejecución de este comando
# isi diagnostics gather start --gather-mode full
* La evaluación del estado no está destinada a solucionar problemas del clúster ni a evaluar la configuración, el rendimiento o el flujo de trabajo del clúster.
- Realice un “reinicio en frío” de cada nodo siguiendo los siguientes pasos. Se debe programar un período de mantenimiento para esta actividad.
Nota: Este proceso le permite identificar cualquier error de memoria o modo de falla de la unidad que solo se detecta cuando se vuelve a encender el nodo.
- Apague cada nodo del clúster uno por uno. Para apagar cada nodo:
- Abra una conexión SSH a cualquier nodo. Apague cada nodo a través de la ejecución del siguiente comando
isi config shutdown <node_lnn>
- Verifique que cada nodo se haya apagado con la confirmación de que el LED verde indicador de alimentación en la parte posterior del nodo ya no esté iluminado.
- Presione el botón de encendido para volver a encender el nodo.
- Verifique que el nodo se ha reincorporado al clúster y que está funcionando a través del comando
isi status -qy busque OK en la columna Health DASR de la salida. - Si un nodo tiene problemas que se indican en la columna Health DASR o no puede reincorporarse al clúster, resuelva estos problemas antes de apagar el nodo siguiente.
Ejemplo de un problema. El nodo 1 se reincorporó al clúster correctamente, pero en la columna Health DASR, se indica que necesita atención.
mycluster-1# isi status -q Cluster Name: mycluster Cluster Health: [ ATTN] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-A-- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Vuelva a comprobar el estado de todo el clúster después de reiniciar cada nodo. Abra una conexión SSH a cualquier nodo y ejecute el siguiente comando:
isi status -q
isi config reboot <node_lnn>
Sin embargo, Dell recomienda encarecidamente utilizar el enfoque de reinicio en frío para identificar de manera más eficaz los problemas latentes de hardware.
Fase 2: Apagar cada nodo del clúster.
Estos pasos se realizarán el día en que apague el Isilon Cluster. Durante un apagado en todo el clúster, algunos factores pueden afectar o retrasar el proceso de apagado. Por ejemplo, las escrituras de datos pendientes en un nodo podrían afectar el apagado. El propósito de los pasos 1 y 2 es garantizar que todos los clientes se desconecten del clúster y que los datos se guarden correctamente desde los registros del nodo al sistema de archivos antes de ejecutar el comando de apagado. Si tiene clientes iSCSI, asegúrese de apagar los clientes antes de que el servicio iSCSI se deshabilite.
En el Paso 3, se describe cómo apagar cada nodo del clúster de manera secuencial a través de una consola en serie. Este método se recomienda porque le permite verificar que cada nodo esté correctamente apagado antes de continuar con el siguiente nodo y realizar ajustes o solucionar problemas según sea necesario para garantizar un apagado adecuado del clúster. Sin embargo, este método puede tardar mucho tiempo, ya que requiere la conexión de una consola en serie a cada nodo para ejecutar el comando de apagado. La sección Apagar todos los nodos del clúster simultáneamente describe cómo utilizar la interfaz de línea de comandos de OneFS o la interfaz de administración web de OneFS para apagar el clúster. Este método requiere menos tiempo que el paso 3, pero hace que sea más difícil identificar los nodos que tienen problemas durante el proceso de apagado.
- Isilon recomienda aislar el clúster de los clientes para asegurarse de que los clientes con actividad intensiva de escritura no impidan el procedimiento de apagado. Para ello, deshabilite los servicios orientados al cliente que se ejecutan en el clúster. Realice el siguiente procedimiento para deshabilitar los servicios orientados al cliente:
- Identifique los servicios o protocolos orientados al cliente que se ejecutan en el clúster a través de la ejecución de los siguientes comandos para cada servicio orientado al cliente:
isi services apache2 isi services isi_hdfs_d isi services isi_iscsi_d isi services ndmpd isi services nfs isi services smb isi services vsftpd
- B. Documente los servicios que están “habilitados” en el clúster en función de la salida de cada comando. En el siguiente ejemplo, el servicio SMB está habilitado, mientras que el servicio NFS está deshabilitado:
mycluster-4# isi services smb Service 'smb' is enabled. mycluster-4# isi services nfs Service 'nfs' is disabled. mycluster-4#
- Deshabilite los servicios orientados al cliente. Después de este paso, todos los clientes pierden inmediatamente la conexión con el clúster. Para deshabilitar un servicio, ejecute el siguiente comando relacionado con el servicio que habilitó.
isi services apache2 disable isi services isi_hdfs_d disable isi services isi_iscsi_d disable isi services ndmpd disable isi services nfs disable isi services smb disable isi services vsftpd disable
Si tiene clientes iSCSI, asegúrese de que los clientes iSCSI hayan desmontado sus LUN antes de realizar el paso 2. Ejecute el comando isi iscsi list para confirmar que todos los clientes iSCSI estén desconectados del clúster.
Nota: Si está deshabilitando el servicio iSCSI, asegúrese de haber apagado los clientes iSCSI antes de ejecutar el comando
isi_iscsi_d disable comando. La interrupción de un LUN iSCSI montado podría provocar daños en el cliente, lo que normalmente requiere una recuperación desde el respaldo.
- Transfiera las escrituras de datos almacenadas en los registros del nodo al sistema de archivos mediante la ejecución del comando
isi_for_array isi_flushcomando. En cada nodo aparece una salida similar a la siguiente:
Nota: cuando se ejecuta isi_flush NO se detendrá hasta que se complete el vaciado en un nodo o el nodo se apague o entre en estado de alarma. No puede ctrl+c fuera del flush en caso de que haya problemas.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... mycluster-1: Cache flushing complete.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining mycluster-2: Flushing cache... fsync: giving up on dirty
Ejecute el comando isi_for_array isi_flush de nuevo. Si algún nodo no se puede vaciar, comuníquese con el soporte técnico de Dell Isilon. Todos los nodos se deben vaciar correctamente antes de continuar con el siguiente paso.
- Apague cada nodo del clúster de forma secuencial y controle la salida. Este enfoque se recomienda porque le permite identificar y resolver cualquier problema antes de apagar el siguiente nodo del clúster. Apague cada nodo a través de los siguientes pasos:
Advertencia: NO ejecute el comando
isi_for_array shutdown -p para apagar el clúster.
- Conecte una consola en serie a cada nodo.
- Ejecute el siguiente comando:
isi config shutdown
Powering the system off using ACPI
- C. Observe la consola y busque eventos de falla relacionados con el hardware. Los guardados correctos del registro del nodo se seleccionan en las siguientes variaciones de la salida:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving. An example of a node journal save failure is highlighted in the output below: 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:
Si recibe un error que indica que el registro del nodo no guardó, puede guardar manualmente el registro a través de los pasos de la Fase 3.
Apagar todos los nodos del clúster en forma simultánea.
Si se produce una emergencia, puede apagar todos los nodos del clúster en forma simultánea. Sin embargo, este método no se recomienda porque no le permite monitorear el estado y la salida de cada nodo en caso de que se produzca un problema. Si decide seguir estos pasos, Dell recomienda encarecidamente seguir todos los pasos de la Fase 3 para verificar que todos los nodos se hayan apagado correctamente después de realizar los procedimientos que se indican a continuación.
Advertencia: Si elimina una fuente de alimentación de un nodo que no ha vaciado datos de su registro al sistema de archivos, el riesgo de pérdida de datos aumenta considerablemente. Comuníquese con el soporte técnico de Dell Isilon si necesita ayuda con el procedimiento de apagado.
# isi config shutdown all
isi_for_array shutdown -p para apagar el clúster desde la interfaz de administración web de OneFS, en OneFS 8.0 y versiones posteriores.
Fase 3: Verificar que los nodos se hayan apagado correctamente.
Confirme que los nodos se hayan apagado correctamente observando el diodo emisor de luz (LED) indicador de alimentación en la parte posterior del nodo. Todos los LED indicadores de alimentación deben estar oscuros o apagados. Esto indica que el nodo se apagó correctamente.
Si la luz indicadora de alimentación en la parte posterior del nodo sigue encendida, significa que el nodo no se ha apagado. Si el nodo no se ha apagado o si recibe una salida de la consola que indica que el registro del nodo no se guardó correctamente (desde la Fase 2, Paso 3C), debe guardar manualmente el registro para asegurarse de que esos datos se confirmen en el disco antes de apagar el nodo.
- Para guardar manualmente el registro y apagar el nodo, realice los siguientes pasos:
- Si el nodo responde a la interfaz de la línea de comandos, reinicie el nodo mediante la ejecución del siguiente comando:
# isi config reboot
- Si el nodo no responde a la interfaz de línea de comandos, reinicie manualmente el nodo manteniendo presionado el botón de encendido en la parte posterior del nodo. Esto hace que el nodo se apague. Espere 30 segundos y, a continuación, presione el botón de encendido una vez para arrancar el respaldo del nodo nuevamente. Avance al siguiente paso.
- Después de reiniciar el nodo, vuelva a iniciar sesión y realice los siguientes pasos para guardar el registro:
- Intente volver a apagar correctamente el nodo a través de la ejecución del siguiente comando:
# isi config shutdown
- Si la salida aún indica que el registro no se guardó, guarde manualmente el registro a través de la ejecución del siguiente comando:
# isi_save_journal
- Si el registro aún no se guarda, desmonte el sistema de archivos /ifs y fuerce el guardado del registro a través de la ejecución de los siguientes comandos:
# isi_kill_busy && umount /ifs
- Ejecute el comando isi_checkjournal para verificar que el registro se haya guardado.
# isi_checkjournal
- No vaya al paso siguiente hasta que la salida indique que el registro se guardó correctamente.
Comuníquese con el soporte técnico de Dell si es necesario.
Fase 4: Desconectar la fuente de alimentación.
Solo después de que el clúster se haya apagado correctamente y los nodos estén apagados se puede desconectar la fuente de alimentación del clúster.
Baterías de la NVRAM
Cuando un cliente escribe un archivo en un nodo, las escrituras se almacenan primero en la RAM no volátil (NVRAM) alojada en la tarjeta de registro del nodo. En algún momento después, OneFS confirma esas escrituras en el disco. Para proteger los datos almacenados en la NVRAM en caso de una interrupción de alimentación no programada, cada nodo está equipado con baterías para la NVRAM (dos para redundancia). Un nodo que está apagado, pero que permanece conectado a una fuente de alimentación, continúa actualizando las baterías de la NVRAM. Cuando la fuente de alimentación se desconecta del nodo, las baterías de la NVRAM comienzan a agotarse. La duración de la batería en la generación actual de nodos (X200, S200, X400 y NL400) es de aproximadamente cinco días. En la generación anterior de nodos, la duración de la batería de la NVRAM es de aproximadamente tres días.
Dell Technologies recomienda apagar correctamente los nodos para evitar depender de baterías de la NVRAM durante un período de tiempo considerable durante una interrupción de la alimentación.
Si las baterías de la NVRAM de un nodo se agotan por completo, el nodo arranca en modo de solo lectura y permanece en modo de solo lectura durante aproximadamente 30 minutos hasta que las baterías de la NVRAM se cargan por completo. Cuando se recargan las baterías, el nodo vuelve automáticamente al modo normal de lectura/escritura.
Fase 5: Encender cada nodo del clúster.
Estos pasos se realizarán cuando tenga todo listo para reiniciar el Isilon Cluster.
- Restaure la fuente de alimentación a cada nodo.
- Presione el botón de encendido en el panel frontal o en la parte posterior de cada nodo para encenderlos.
- Una vez que todos los nodos se hayan encendido, ejecute el comando
isi status -qpara revisar el estado del clúster. Verifique que todos los nodos estén OK en la columna Health DASR y que no estén en modo de solo lectura (R) antes de continuar. Para un clúster en buen estado, debe aparecer una salida similar a la siguiente:
Cluster Name: mycluster Cluster Health: [ OK ] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-OK- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Consulte la lista de servicios habilitados que se crearon en la Fase 2, Paso 1B y habilite los servicios que se deshabilitaron a través de la ejecución de uno o más de los siguientes comandos:
isi services apache2 enable isi services isi_hdfs_d enable isi services isi_iscsi_d enable isi services ndmpd enable isi services nfs enable isi services smb enable isi services vsftpd enable
- Verifique que los clientes puedan conectarse al clúster y realizar sus flujos de trabajo habituales. El clúster debe funcionar con normalidad.
- Uploy una recopilación completa de registros:
# isi_gather_info --esrs
- Realice o solicite una evaluación del estado de Isilon por parte del equipo reactivo remoto (atención al cliente).
Pasos para ejecutar las evaluaciones del estado.
PowerScale: cómo ejecutar la herramienta de análisis de clúster IOCA.
- Solicite una evaluación del estado a través del equipo de soporte reactivo remoto.
Esto está disponible para todos los clientes con un acuerdo de mantenimiento activo para clústeres en versiones de código compatibles.
Si cumple con estos requisitos, abra una solicitud de servicio (SR) en el sitio de soporte en línea de Dell para solicitar una “evaluación del estado de Isilon”.
* La evaluación del estado no está destinada a solucionar problemas del clúster ni a evaluar la configuración, el rendimiento o el flujo de trabajo del clúster.