Data Domain: Problema de actualización de firmware de unidad en DDOS 7.x | 8.0 | 8.1| 8.2 | 8.3.0.x
Resumen: En las versiones 7.10, 7.13, 8.0, 8.1, 8.2 y 8.3.0.x de DDOS, los sistemas Data Domain (DD) con actualizaciones de firmware de unidad habilitadas pueden experimentar fallas de disco falsas e inesperadas. Específicamente, dos dispositivos por grupo de discos (DG) pueden pasar a un estado fallido debido a un problema de conteo de referencias del módulo RAID en el kernel. Esto puede provocar inestabilidad en el sistema y posibles riesgos de disponibilidad de datos. ...
Síntomas
- Dos dispositivos por grupo de dispositivos (DG) entran inesperadamente en un estado fallido
- El intento de hacer fallar un tercer dispositivo en la unidad principal provoca un estado de alarma del sistema (estado de falla total)
- Excesivo
kern.infoEntradas de registro de WARN - Estado del grupo de discos degradado
- Degradación notable del rendimiento en DD
Sistemas afectados:
- Sistemas DD con almacenamiento externo que ejecutan versiones tempranas de DDOS 7.10 | 7.13 | 8.0 | 8.1 | 8.2 | 8.3.0.x
Causa
Durante el proceso de actualización del firmware de unidad, el comando RAID check scan Puede ejecutarse varias veces según la cantidad de dispositivos en el sistema. Cada ejecución aumenta el conteo de referencias del módulo RAID en el kernel de Linux. En las versiones de kernel 4.4 y 5.4 (utilizadas en DDOS 7.7, 7.10, 7.13, 8.0, 8.1, 8.2 y 8.3.0.x), este conteo de referencias no disminuye. Si el conteo se revierte a cero, el kernel bloquea el acceso de RAID a la parte interna gendisk estructuras, lo que hace que los dispositivos se marquen como ilegibles y pasen a un estado fallido. Cada DG tolera solo dos dispositivos fallidos; una tercera falla desencadena un estado de alarma del sistema en la unidad principal (controladora).
Resolución
Se integró una corrección permanente en las siguientes versiones de DDOS:
- Versiones de LTS:
- 7.10.1.70 || 7.13.1.30 || 8.3.1.0 (o más reciente)
- Versiones de características:
- >= 8.4.0.x
Solución alternativa:
- Si la actualización no es posible.
- Debe ser completada por el soporte técnico de Dell:
- Modifique el script de actualización del firmware de la unidad para que vuelva inmediatamente después de la ejecución, lo que minimiza el aumento en el conteo de referencias del módulo RAID.
- Clientes: Envíe una solicitud de servicio al soporte técnico de Dell y consulte este artículo de la base de conocimientos (#000331892) para acelerar la resolución.