Dell Unity: Los errores de tiempo de espera agotado del comando de unidad pueden provocar problemas de rendimiento y falta de disponibilidad de datos (corregible por el usuario)
Summary: Descripción del impacto: Grave problema de rendimiento después de que las unidades flash comienzan a registrar errores que el arreglo no aborda automáticamente.
Symptoms
Potencial falta de disponibilidad de datos
Gravedad: Crítico
El administrador del sistema observa graves problemas de rendimiento en el arreglo después de que una unidad comienza a registrar errores: errores de medios de software y 01|18|ff, seguidos de anulaciones incidentales, tiempos de espera de selección y tiempos de espera de comando.
Unidades con los números de referencia y el firmware enumerados. El arreglo puede informar errores como "Soft media error" y 01|18|ff seguido de errores de bus SCSI de software “[IncidentalAbort]", “[Select timeout]", and “[Command timeout]". La unidad se puede poner offline en un SP, pero permanece activa en el segundo SP e informa errores similares.
Ejemplos de registros de SP:
>>> drive repeatedly reports 01/18/ff B 11/15/20 18:05:31.994 Bus0 Enc0 Dsk02 11c4004 [WARN] System: Disk 0_0_2 Soft media error. DrvErrExtStat:0x22 SRT 35ms ST 0x767fd102672 ET 0x767fd10b014 . [Recovered error (on-drive ECC)] B 11/15/20 18:05:32.009 Bus0 Enc0 Dsk02 11c0006 [INFO] System: Disk 0_0_2 01|18|ff BLBA 0x32d948218 OP 0x88, LBA 0x32d948200, SZ 0x80 . A 11/15/20 18:06:18.548 Bus0 Enc0 Dsk02 11c4004 [WARN] System: Disk 0_0_2 Soft media error. DrvErrExtStat:0x22 SRT 66ms ST 0x7680628d0f1 ET 0x7680629d1c6 . [Recovered error (on-drive ECC)] A 11/15/20 18:06:18.566 Bus0 Enc0 Dsk02 11c0006 [INFO] System: Disk 0_0_2 01|18|ff BLBA 0x2d6cce4d8 OP 0x88, LBA 0x2d6cce4d0, SZ 0x10 . >>> followed by Soft SCSI bus errors (Incidental abort and selection timeout) A 11/15/20 18:17:33.877 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0xdd SRT 522ms ST 0x7682e5dd934 ET 0x7682e65cf8b . [IncidentalAbort] B 11/15/20 18:17:33.892 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0xdd SRT 535ms ST 0x768280ad284 ET 0x7682812faab . [IncidentalAbort] A 11/15/20 18:17:33.910 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x7 SRT 537ms ST 0x7682e5d9c09 ET 0x7682e65cfc5 . [Select timeout] >>> followed by repeated command timeout. A 11/15/20 20:44:30.049 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x6 SRT 4340ms ST 0x76a3b63f4df ET 0x76a3ba4175c . [Command timeout] A 11/15/20 20:44:30.069 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x6 SRT 4201ms ST 0x76a3b641f27 ET 0x76a3ba41b53 . [Command timeout] A 11/15/20 20:44:30.090 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x6 SRT 4210ms ST 0x76a3b63e5a2 ET 0x76a3ba41f97 . [Command timeout] >>> drive reported too many port errors and was logged out, then it could not log in again. It failed on SPB with the Activate timer expired. B 11/16/20 05:52:47.360 Bus0 Enc0 LccB 1678052 [ERROR] System: LCC is faulted. This failure may be caused by a component other than the LCC (Drive, Cable, Connector, ...). B 11/16/20 05:54:42.263 Bus0 Enc0 Dsk02 60258 [CRIT] User: Disk 0_0_2 has failed (Part Number 005053578, Serial Number 50L0A01FTT2F) B 11/16/20 05:54:42.879 Bus0 Enc0 LccB 602bc [CRIT] User: LCC has faulted (Part Number 303-396-000B-00, Serial Number CF2DD201400245) B 11/16/20 05:55:23.571 Bus0 Enc0 Dsk02 1678058 [ERROR] System: Disk 0_0_2 taken offline. Escalate to support. SN:50L0A01FTT2F TLA:005053578 Rev:PA5H (0x2030001) Reason:Expired.
Sistemas que pueden verse afectados:
| Producto (y versión) | Dell Unity 300F, Dell Unity 350F, Dell Unity XT 380F, Dell Unity 400F, Dell Unity 450F, Dell Unity XT 480F, Dell Unity 600F, Dell Unity 650F, Dell Unity XT 680F, Dell Unity XT 880F, familia Dell Unity |Dell Unity todo flash |
| Ejecución de este software principal (sistema operativo (SO) o entorno operativo (OE)) |
Todos los entornos operativos |
| Cuando se presenta esta condición | El arreglo contiene cualquiera de los siguientes números de referencia de unidad con firmware PA5H 005052867, 005052866, 005052869, 005052868, 005052871, 005052870, 005053573, 005053572, 005053577, 005053576, 005053579, 005053578, 005052859, 005052858, 005052861, 005052860, 005052863, 005052862, 005053583, 005053582, 005053596, 005053595, 005053598, 005053597, 005053575, 005053574 |
Cause
La recuperación de errores incorporada en las unidades normalmente responde dentro de los límites de tiempo aceptables; sin embargo, en ocasiones, debido a un fallo NAND, el número de bloques necesarios para la recuperación puede ser mayor y, junto con los ajustes de tiempo de espera agotado de comando largo, puede causar tiempos de espera excesivos y afectar el rendimiento del arreglo.
Resolution
| Tipo de acción | Solución |
| Acción necesaria | Actualice el firmware de la unidad a PA5L para solucionar el problema. |
| ¿Quién puede completar la acción? | Cliente |
| Problema abordado en este sistema o entorno operativo o software |
El firmware PA5L está disponible en www.dell.com/support en el paquete de firmware de unidad Unity V18 o superior.
|
| Procedimiento de resolución del cliente de SolVe | Para obtener información adicional sobre la actualización del firmware de la unidad, seleccione "Software Upgrade Procedures" en SolVe para Dell Unity. o siga el artículo Instrucciones e información de actualización del firmware de unidad |
| Detalle de la resolución | Arreglos que actualmente experimentan problemas de rendimiento: Para solucionar inmediatamente los problemas de rendimiento, elimine la unidad infractora del pool. Una vez que la unidad está fuera del pool, el rendimiento debe mejorar de inmediato. Para lograr esto, realice lo siguiente: Si el acceso físico al sistema está disponible: Quite la unidad identificada como que informa un error de bus de SCSI de software y [Tiempo de espera agotado del comando] Cambie la unidad quitada por un repuesto equivalente. No inserte la unidad de reemplazo durante 5 minutos para permitir que el sistema se reconstruya a fin de evitar la paridad. Comuníquese con el soporte técnico de Dell, según sea necesario, para solicitar un reemplazo de la unidad que causa los problemas de rendimiento. Si no hay acceso físico al sistema disponible de inmediato, y para analizar otras posibles soluciones alternativas, comuníquese con el soporte técnico de Dell o con un representante de servicio autorizado y mencione el número de este artículo de DTA. Actualice el firmware de la unidad a PA5L. Asegúrese de que el nuevo arreglo instale la actualización del firmware de unidad PA5L NOTA: El firmware de PA5L está diseñado para reemplazar las unidades que informan errores excesivos de 01/18/ff y de tiempo de espera agotado de comandos con mayor rapidez. Tenga en cuenta que se puede experimentar un impacto secundario en el rendimiento durante una operación de reconstrucción de reemplazo de unidades o de reorganización/rebalanceo en pools dinámicos. Los 000055614 de LKB se actualizarán según corresponda cuando se aborde este problema. Consulte el 000021322 de LKB para obtener instrucciones sobre cómo actualizar el firmware de la unidad. Los paquetes de firmware de unidad Unity están disponibles para su descarga desde www.dell.com/support y se pueden encontrar mediante la búsqueda de “Unity Drive Firmware Package”. |