PowerScale: Política de reemplazo de DIMM para nodos Isilon: ID de evento: 900010007, 900160004

Resumen: Política de reemplazo de módulos dobles de memoria en línea (DIMM) para nodos Isilon para ID de evento: 900010007, 900160004.

Este artículo se aplica a Este artículo no se aplica a Este artículo no está vinculado a ningún producto específico. No se identifican todas las versiones del producto en este artículo.

Síntomas

Cuando OneFS detecta un evento de comprobación y corrección de errores (ECC) de DIMM, se registra en el isi_hwmon.log. 
A continuación, se envía una notificación de eventos al administrador del clúster. Después de que se registra una cantidad específica de errores, la política de Isilon es reemplazar el DIMM que está experimentando los errores.

Detalles de la política

  • Los errores de ECC de varios bits o incorregibles (UNCOR) REQUIEREN REEMPLAZO INMEDIATO.
    Por lo general, los errores de este tipo hacen que un nodo entre en estado de alarma y se reinicie.
  • Errores de ECC de un solo bit: Las ráfagas iniciales de errores de ECC de un solo bit en un DIMM específico son aceptables. Una instancia repetida excesiva de errores en el mismo DIMM justifica el reemplazo. Las siguientes son dos categorías de errores de ECC de un solo bit y sus detalles:
    • Categoría 1: ERRORES ACEPTABLES
      • Se permite un máximo de 500 errores corregibles en un DIMM dentro de un período de 24 horas en nodos Gen5 (S/X210. NL/X410 y HD400)
      • Se permite un máximo de 5000 errores corregibles en un DIMM dentro de un período de 24 horas en nodos Gen6 y más recientes (F900/810/800/600/200, H700/7000/600/500/400, A200/2000/300/3000)
    • Categoría 2: REQUIERE REEMPLAZO
      • DIMM que informan más de la cantidad de errores anterior en 24 horas
      • Errores incorregibles (UNCOR)
      • DIMM que se puede demostrar que causaron que un nodo entre en una situación de pánico o se reinicie, independientemente de la cantidad o el tipo de errores
      • DIMM que se informan como faltantes 
 
NOTA: Un error de ECC de un solo bit es un error de memoria que el sistema detecta y corrige. Los errores de memoria pueden ser totalmente transitorios y deberse a fenómenos no defectuosos. Si no son repetibles, se consideran aceptables. Estos errores se consideran "errores leves", se corrigen de inmediato y no suponen ningún riesgo para la integridad de los datos. 

Los errores de ECC de un solo bit se informan como errores de ECC corregibles o errores de memoria no graves.

Causa

No corresponde

Resolución

Si OneFS generó una alerta de reemplazo de DIMM para un DIMM específico, reemplace el DIMM indicado. No se requiere verificación previa al reemplazo adicional. Hay problemas para detectar e informar correctamente módulos DIMM fallidos en OneFS 8.1.0.3 y versiones anteriores. Todas las versiones compatibles de OneFS detectan e informan correctamente las infracciones del umbral de reemplazo de DIMM.

Información adicional

NOTA: Algunas versiones de OneFS también envían alertas informativas sobre errores de memoria corregibles antes de que se haya superado el umbral de reemplazo. Por lo general, si la alerta no se genera en el nivel crítico y no especifica explícitamente el reemplazo de DIMM, no es necesario ningún reemplazo.

Productos afectados

Isilon

Productos

Isilon, Isilon 108NL, Isilon 36NL, Isilon 72NL, Isilon IQ 10000X-SSD, Isilon IQ 12000, Isilon IQ 6000X, Isilon NL400, Isilon S200, Isilon X200, Isilon X400
Propiedades del artículo
Número del artículo: 000041666
Tipo de artículo: Solution
Última modificación: 28 oct 2025
Versión:  9
Encuentre respuestas a sus preguntas de otros usuarios de Dell
Servicios de soporte
Compruebe si el dispositivo está cubierto por los servicios de soporte.