Dell EMC Unity: Errores de unidad que causan fallas de unidad o problemas de rendimiento (corregible por Dell EMC)
Summary: Problemas graves de rendimiento después de que algunas unidades flash comienzan a registrar errores, pero el sistema no los falla automáticamente.
Symptoms
Visión general:
Se han observado dos problemas distintos con los siguientes números de referencia de unidad:
005052377, 005052378, 005052379, 005052380, 005051739, 005051740, 005052154, 005052155
Edición # 1.
Las unidades fallan (se establecen en EOL, final del ciclo de vida) después de que la unidad informa muchos errores de bus SCSI de software acompañados de BUFFER
DE DETECCIÓN NO VÁLIDO Unidades con los números de referencia enumerados y que ejecutan el firmware PC09, PC0B, PC0D, PC10, PC42 o PC47
Ejemplo de registros de SP (/EMC/backend/log_shared/EMCSystemLogFile.log) similares a los que se muestran a continuación:
29/01/18 05:41:00.121 Bus0 Enc0 DSK19 11C4003 [WARN] Sistema: Error del bus SCSI de software del disco. DrvErrExtStat:0x1 SRT 349ms ST 0xcd51723a571 ET 0xcd517285579 . [El comando REQUEST SENSE falló]
29/01/18 05:41:00.131 Bus0 enc0 dsk19 11c0006 [INFO] Sistema: Disco OPERADOR DE BUFFER DE DETECCIÓN NO VÁLIDO 0x28, LBA 0x37d8e000, SZ 0x800
Problema # 2.
El administrador del sistema observa graves problemas de rendimiento en el sistema después de que una unidad comienza a registrar errores: errores de medios de software y 01|18|ff
Unidades con los números de referencia enumerados y que ejecutan el firmware PC13 o PC4A. Es posible que el sistema informe errores por "error de medios de software".
Es posible que la unidad informe que alcanzó el final del ciclo de vida (EOL), pero sigue siendo parte del pool, lo que degrada el rendimiento de todos los LUN/FS del pool afectado.
El problema se ha observado principalmente en los pools dinámicos todo flash, pero podría involucrar a los pools tradicionales que contienen unidades flash con los números de pieza afectados.
27/04/18 21:52:52.909 Bus1 enc0 dsk02 11c4004 [WARN] Sistema: Error de medios de software del disco 1_0_2. DrvErrExtStat:0x22 SRT 69ms ST 0x5eae3254c6d ET 0x5eae32659fa . [Error recuperado (ECC en la unidad)]
27/04/18 21:52:52.921 Bus1 enc0 dsk02 11c0006 [INFO] Sistema: Disco 1_0_2 01|18|ff BLBA 0x127fedd0 OP 0x2f, LBA
Cause
Problema # 1: La unidad informa errores de bus SCSI de software acompañados de BUFFER
DE DETECCIÓN NO VÁLIDOLa causa de los errores es una longitud incorrecta del campo de detección de datos devuelta por la unidad: A pesar de que el requisito de Dell EMC especifica que el tamaño máximo permitido para los datos de detección de formato de descriptor es de 48 bytes, el firmware genera datos de detección de formato de descriptor a más de 48 bytes.
Problema # 2: Drive informa errores de medios de software y 01|18|ff
La causa de los errores de medios de software es que el código de Unity reconoce incorrectamente los errores devueltos por la unidad. En ambos casos, el código de Unity no reconoce correctamente los errores devueltos por la unidad, mientras que la tasa de errores para I/O en buen estado continúa siendo baja, lo que hace que la unidad continúe funcionando en un estado no óptimo durante mucho tiempo y afecta el rendimiento de todos los LUN/FS en el pool.
Resolution
Problema # 1:
Dell EMC Unity OE 4.2.1.9535982 y versiones posteriores abordan este problema y se recomienda actualizar el software del arreglo a la versión más reciente.
Además, se recomienda encarecidamente actualizar el firmware de la unidad para evitar problemas futuros. Véase más abajo.
Problema # 2: Drive informa errores de medios de software y 01|18|ff
Para solucionar de inmediato el problema de rendimiento, la unidad agresora se debe quitar del pool. Una vez que la unidad está fuera del pool, el rendimiento debe mejorar de inmediato.
- Si dispone de acceso físico al sistema, extraiga la unidad con problemas de la ranura y póngase en contacto con el soporte técnico de Dell EMC para solicitar un reemplazo de la unidad.
- Si no hay acceso físico al sistema disponible de inmediato, y para analizar otras posibles soluciones alternativas, comuníquese con el soporte técnico de Dell EMC o con su representante de servicio autorizado y mencione el ID de este artículo de la base de conocimientos.
Recomendaciones:
Para abordar los problemas #1 y #2, se recomienda actualizar el firmware de la unidad a las versiones que se enumeran a continuación o a versiones posteriores. El paquete de firmware de unidad Unity V9, lanzado el 27 de febrero del 2019, contiene firmware para los siguientes números de referencia y las versiones
de firmware correspondientes: 005052377: QC4E
005052378, QC4E
005052379, QC4E
005052380, QC4E
005051739 PC16
, 005051740 PC16
, 005052154 PC16
, 005052155 PC16
Consulte el artículo 490700 de la base de conocimientos https://support.emc.com/kb/490700 para obtener instrucciones sobre cómo actualizar el firmware de la unidad.
El paquete de firmware de unidad Unity más reciente está disponible para su descarga desde la página de soporte y se puede encontrar mediante la búsqueda de "Unity_Drive_Firmware_Package".
Consulte DTA 528178: Dell EMC Unity: Los errores de medios de software de la unidad pueden provocar problemas de rendimiento y falta de disponibilidad de datos (corregible por el usuario)liberados para unidades 005052377 005052378 005052379 y 005052380
Additional Information
| https://downloads.dell.com/TranslatedPDF/ES_KB521649.pdf |
| https://downloads.dell.com/TranslatedPDF/DE_KB521649.pdf |
| https://downloads.dell.com/TranslatedPDF/FR_KB521649.pdf |
| https://downloads.dell.com/TranslatedPDF/IT_KB521649.pdf |
| https://downloads.dell.com/TranslatedPDF/JA_KB521649.pdf |
| https://downloads.dell.com/TranslatedPDF/KO_KB521649.pdf |