Isilon: Cómo determinar si un clúster Isilon se encuentra en una ventana de riesgo de pérdida de datos
Summary: Cómo determinar si un clúster Isilon se encuentra en una ventana de riesgo de pérdida de datos.
Symptoms
Introducción
Una ventana de riesgo (WOR) se produce cuando fallan suficientes dispositivos en un clúster, un pool de nodos o un pool de discos como para alcanzar el nivel de protección. Esta afección también se conoce como "protección en exceso" o "sobreprotección". Cuando un clúster o pool se encuentra en WOR, la pérdida de datos aún no se ha producido. Sin embargo, si otros dispositivos fallan, es posible que se produzca una pérdida de datos. El hecho de que se produzca o no una pérdida de datos depende de diferentes factores. Esos factores incluyen; Los dispositivos adicionales que fallaron antes de que FlexProtect pueda completarse, o si los dispositivos fallidos fueron la única fuente de los datos en cuestión.
En este artículo, se describe cómo funcionan los niveles de protección en el clúster y cómo puede saber si el clúster está en un WOR de pérdida de datos.
A los efectos del cálculo de WOR, "fallido" se refiere a los dispositivos que se encuentran en un estado "inactivo" o "muerto". Los dispositivos que son "soft_failed" no se cuentan en los niveles de protección. Consulte la sección "Procedimiento" a continuación para saber cómo determinar la cantidad de dispositivos "inactivos" o "muertos".
NOTA
La condición en la que fallan más dispositivos que el número especificado como nivel de protección se denomina "sobreprotección". En este estado, el clúster o el pool de nodos/pool de discos ya no pueden volver a crear correctamente todos los datos almacenados allí.
Detalles
OneFS utiliza un modelo de protección de datos N+M. En la notación N+M, N representa la cantidad de nodos. La M representa la cantidad de nodos, unidades o pool de nodos/pool de discos simultáneos que el clúster puede manejar sin perder datos. Por ejemplo, con una protección N+2, el clúster o el pool pueden perder dos unidades en nodos diferentes o perder dos nodos por completo.
OneFS 6.5 y versiones posteriores también soportan un modelo de protección N+M:B. En la notación N+M:B, N representa la cantidad de nodos. M representa la cantidad de unidades inactivas o fallidas. La B representa la cantidad de nodos inactivos o fallidos que el clúster o el pool de nodos/pool de discos puede manejar sin perder datos. Por ejemplo, con una protección N+3:1, el clúster o el pool pueden perder tres unidades o un nodo sin perder datos.
Varias unidades inactivas o fallidas dentro de un nodo único siempre representan una falla de un solo nodo (en lugar de fallas de unidades múltiples) para los fines del cálculo de TOR. Estos son algunos ejemplos del uso de un clúster de 8 nodos con una protección N+3:1:
- Ejemplo 1: En un solo clúster, fallan tres unidades, cada una en un nodo diferente. Esto coloca al clúster en un WOR ("en protección").
- Ejemplo 2: En un solo clúster, fallaron dos unidades dentro del mismo nodo. Dado que las unidades están en el mismo nodo, las fallas se cuentan como una falla de nodo único. Esta situación también coloca al clúster en un WOR ("en protección").
Para obtener más información sobre los niveles de protección de datos y cómo se calculan, consulte la Guía de administración de OneFS.
¡CAUTELA!
Si sospecha o determina que el clúster está en estado HOR, comuníquese con el soporte técnico de Dell para obtener ayuda antes de realizar más acciones.
¡IMPORTANTE!
Es posible que se produzca un WOR cuando fallan las unidades o los nodos. Sin embargo, el departamento de ingeniería de Isilon recomienda mantener las unidades o los nodos defectuosos en el clúster hasta que la operación de FlexProtect se haya completado correctamente. Aunque un dispositivo haya fallado, es posible que algunos o todos los bloques de datos aún se puedan leer. Dejar la unidad o el nodo unidos al clúster proporciona flexibilidad si es necesario intentar recuperar datos del dispositivo fallido.
Cause
Para determinar si el clúster o el pool de nodos/pool de discos se encuentra actualmente en un WOR, primero determine el nivel de protección configurado en el clúster o pool. A continuación, determine cuántos nodos y unidades fallidos existen. A los efectos del cálculo de WOR, "fallido" se refiere a los dispositivos que se encuentran en un estado "inactivo" o "muerto". Siga las instrucciones de la sección correspondiente que aparece a continuación.
Resolution
Procedimiento
OneFS 7.2, 8.0, 9.0 y versiones posteriores
- En la interfaz de administración web de OneFS, vaya a File System > Storage Pools SmartPools>.
- Obtenga el nivel de protección actual de la tabla Tiers & Node Pools , en la columna Requested Protection .
- Abra una conexión SSH al nodo e inicie sesión con la cuenta "raíz".
- Determine cuántos dispositivos están "inactivos" o "muertos" mediante la ejecución del siguiente comando:
isi_group_info El resultado se ve similar al siguiente. Si hay dispositivos inactivos o muertos, se indicarán como "inactivos" o "muertos" en el resultado.
Ejemplo de un nodo inactivo: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, abajo: 6 }
Ejemplo de una unidad inactiva: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, abajo: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Ejemplo de una unidad muerta: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, muerto: 2:10 }
OneFS 7.1
- En la interfaz de administración web de OneFS, vaya a Administración del sistema de > archivos Pools de almacenamiento SmartPools>.
- Obtenga el nivel de protección actual de la tabla Node Pools , en la columna Requested Protection .
- Abra una conexión SSH al nodo e inicie sesión con la cuenta "raíz".
- Determine cuántos dispositivos están "inactivos" o "muertos" mediante la ejecución del siguiente comando:
isi_group_info El resultado se ve similar al siguiente. Si hay dispositivos inactivos o muertos, se indicarán como "inactivos" o "muertos" en el resultado.
Ejemplo de un nodo inactivo: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, abajo: 6 }
Ejemplo de una unidad inactiva: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, abajo: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Ejemplo de una unidad muerta: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, muerto: 2:10 }
Para obtener información sobre la interpretación del resultado, incluido cómo comprender si los dispositivos inactivos o muertos son unidades o nodos, consulte: Comprensión de los cambios de grupo de OneFS o interpretación de los cambios de grupo.
OneFS 7.0
- En la interfaz de administración web de OneFS, vaya a Resumen de SmartPools > de administración del sistema de > archivos.
- Obtenga el nivel de protección actual de la tabla Tiers & Node Pools , en la columna Protection .
- Abra una conexión SSH al nodo e inicie sesión con la cuenta "raíz".
- Determine cuántos dispositivos están "inactivos" o "muertos" mediante la ejecución del siguiente comando:
isi_group_info El resultado se ve similar al siguiente. Si hay dispositivos inactivos o muertos, se indicarán como "inactivos" o "muertos" en el resultado.
Ejemplo de un nodo inactivo: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, abajo: 6 }
Ejemplo de una unidad inactiva: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, abajo: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Ejemplo de una unidad muerta: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, muerto: 2:10 }
OneFS 6.5
- En la interfaz de administración web de OneFS, vaya a Sistema de > archivos SmartPools Pools de > discos.
- Obtenga el nivel de protección actual en la columna Protección predeterminada .
- Abra una conexión SSH al nodo e inicie sesión con la cuenta "raíz".
- Determine cuántos dispositivos están "inactivos" o "muertos" mediante la ejecución del siguiente comando:
isi_group_info El resultado se ve similar al siguiente. Si hay dispositivos inactivos o muertos, se indicarán como "inactivos" o "muertos" en el resultado.
Ejemplo de un nodo inactivo: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, abajo: 6 }
Ejemplo de una unidad inactiva: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, abajo: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Ejemplo de una unidad muerta: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, muerto: 2:10 }