Es posible que sea necesario reemplazar una unidad debido a errores de I/O o si el almacenamiento definido por software marca la unidad como fallida o inutilizable
Summary: Los usuarios pueden solicitar que se reemplace una unidad debido a errores de I/O o si la unidad está marcada como "fallida" o "inutilizable" por la solución de almacenamiento definido por software (SDS). ...
Instructions
Hay varias soluciones SDS diferentes, como Ceph (Linux), vSAN (VMware), Nutanix, etc. Varios servidores configurados de manera idéntica se unen en una red para crear un clúster de almacenamiento. Los servidores se configuran con una tarjeta adaptadora de bus de host (HBA) en lugar de una PERC, de modo que las unidades se presentan al sistema operativo "tal cual". El sistema operativo administra todas las unidades de cada servidor directamente sin ninguna intervención del HBA. La unidad aparece como "En buen estado" en las herramientas de monitoreo de Dell (como iDRAC y OMSA) y en los diagnósticos offline de ePSA. Es posible que los datos de SMARTCTL de la unidad tengan o no errores de lectura y escritura sin corregir. Las pruebas SMART (cortas, largas y extendidas) se superan y la unidad aparece como "En buen estado".
Las soluciones de almacenamiento definido por software (SDS) cambian todos los controles relacionados con el almacenamiento del hardware al software con el uso del adaptador de bus de host (HBA) para proporcionar conectividad física a las unidades.
La controladora RAID (PERC) es responsable de realizar varias actividades de mantenimiento proactivo en las unidades, que incluyen la lectura de patrullaje y las comprobaciones de coherencia en los discos virtuales. Dado que las soluciones SDS utilizan adaptador de bus de host (HBA) en lugar de PERC, el software ahora realiza todas esas actividades de mantenimiento proactivo.
Es posible que los usuarios informen que SDS marca una unidad como "fallida o inutilizable", o que enumera errores de I/O en una unidad. Las herramientas de monitoreo de Dell, como iDRAC y OMSA, informan que la unidad está en buen estado y en funcionamiento.
Las herramientas como "SMARTMON" o "SMARTCTL" pueden indicar algunos errores en una o más unidades indicadas, pero el estado general de la unidad se muestra como "HEALTHY o OK".
Esta discrepancia se debe a los siguientes factores:
- iDRAC muestra el estado del componente. Si el firmware de la unidad informa que está en buen estado, iDRAC refleja lo mismo. Si el firmware de la unidad indica que se encuentra en una condición de falla predictiva, iDRAC reflejará lo mismo.
- Todas las unidades pueden tolerar algunos bloques defectuosos o errores incorregibles y continuar funcionando sin ningún impacto funcional. El fabricante de la unidad programa el umbral para bloques defectuosos en el firmware de la unidad y no es un número o porcentaje estándar.
- Las unidades permanecen en funcionamiento hasta que la cantidad total de bloques defectuosos o errores incorregibles en la unidad supere el umbral de falla predictiva o falla.
- Una dirección de desplazamiento en la unidad se marca como un bloque defectuoso y los datos se reubican SOLO si falla una operación de ESCRITURA en esa dirección específica. El firmware de unidad no considera errores de LECTURA para marcar sectores como bloques defectuosos.
- Es posible que los errores de I/O registrados en el nivel del sistema operativo no se reflejen en los registros de Lifecycle.
En tal escenario, las unidades son funcionales y se encuentran dentro de sus parámetros operativos. No califican ni requieren un reemplazo de hardware. El plan de acción recomendado aquí es realizar las actividades de mantenimiento necesarias desde la capa de software para resolver el problema.
En tal escenario, capture un paquete de registros del sistema operativo completo o informes de uno o más servidores afectados. Comuníquese con el SST de Dell (si está cubierto por el acuerdo de garantía) o con el proveedor del sistema operativo para la revisión del registro, ya que deben asesorar sobre los próximos pasos correctivos.
El SST de Dell o el proveedor del sistema operativo determinan los siguientes detalles:
- Total de errores de I/O registrados por el kernel del sistema operativo (si los hubiera).
- ¿En qué dispositivos (uno o más) se registran los errores?
- Tipo de daño: Nivel de archivo o metadatos (si corresponde)
- ¿Se bloqueó el servicio de almacenamiento? En caso afirmativo, ¿por qué?
- Hay acciones correctivas disponibles en el SDS para resolver dichos errores.