PowerScale: Política de reemplazo de DIMM para nodos Isilon: ID de evento: 900010007, 900160004
Resumen: Política de reemplazo de módulos dobles de memoria en línea (DIMM) para nodos Isilon para ID de evento: 900010007, 900160004.
Síntomas
Cuando OneFS detecta un evento de comprobación y corrección de errores (ECC) de DIMM, se registra en el isi_hwmon.log.
A continuación, se envía una notificación de eventos al administrador del clúster. Después de que se registra una cantidad específica de errores, la política de Isilon es reemplazar el DIMM que está experimentando los errores.
Detalles de la política
- Los errores de ECC de varios bits o incorregibles (UNCOR) REQUIEREN REEMPLAZO INMEDIATO.
Por lo general, los errores de este tipo hacen que un nodo entre en estado de alarma y se reinicie. - Errores de ECC de un solo bit: Las ráfagas iniciales de errores de ECC de un solo bit en un DIMM específico son aceptables. Una instancia repetida excesiva de errores en el mismo DIMM justifica el reemplazo. Las siguientes son dos categorías de errores de ECC de un solo bit y sus detalles:
- Categoría 1: ERRORES ACEPTABLES
- Se permite un máximo de 500 errores corregibles en un DIMM dentro de un período de 24 horas en nodos Gen5 (S/X210. NL/X410 y HD400)
- Se permite un máximo de 5000 errores corregibles en un DIMM dentro de un período de 24 horas en nodos Gen6 y más recientes (F900/810/800/600/200, H700/7000/600/500/400, A200/2000/300/3000)
- Categoría 2: REQUIERE REEMPLAZO
- DIMM que informan más de la cantidad de errores anterior en 24 horas
- Errores incorregibles (UNCOR)
- DIMM que se puede demostrar que causaron que un nodo entre en una situación de pánico o se reinicie, independientemente de la cantidad o el tipo de errores
- DIMM que se informan como faltantes
- Categoría 1: ERRORES ACEPTABLES
Los errores de ECC de un solo bit se informan como errores de ECC corregibles o errores de memoria no graves.
Causa
Resolución
Si OneFS generó una alerta de reemplazo de DIMM para un DIMM específico, reemplace el DIMM indicado. No se requiere verificación previa al reemplazo adicional. Hay problemas para detectar e informar correctamente módulos DIMM fallidos en OneFS 8.1.0.3 y versiones anteriores. Todas las versiones compatibles de OneFS detectan e informan correctamente las infracciones del umbral de reemplazo de DIMM.