Dell Unity: Erros de tempo de espera excedido dos comandos de unidade podem resultar em problemas de desempenho e indisponibilidade de dados (pode ser corrigido pelo usuário)
Summary: Descrição do impacto: Problema grave de desempenho depois que as unidades flash começam a registrar erros que não são resolvidos automaticamente pelo array.
Symptoms
Possível indisponibilidade de dados
Gravidade: Crítico
O administrador do sistema observa graves problemas de desempenho no array depois que uma unidade inicia o registro de erros — erros de mídia flexível e 01|18|ff, seguidos por anulações incidentais, tempos de espera excedidos de seleção e tempos de espera excedidos de comando.
Unidades com os números de peça e firmware listados. O array pode relatar erros como "Soft media error" e 01|18|ff seguido por erros de barramento SCSI flexível “[IncidentalAbort]", “[Select timeout]", and “[Command timeout]". A unidade pode ficar off-line em uma SP, mas permanecer ativa na segunda SP, relatando erros semelhantes.
Exemplo de logs da controladora:
>>> drive repeatedly reports 01/18/ff B 11/15/20 18:05:31.994 Bus0 Enc0 Dsk02 11c4004 [WARN] System: Disk 0_0_2 Soft media error. DrvErrExtStat:0x22 SRT 35ms ST 0x767fd102672 ET 0x767fd10b014 . [Recovered error (on-drive ECC)] B 11/15/20 18:05:32.009 Bus0 Enc0 Dsk02 11c0006 [INFO] System: Disk 0_0_2 01|18|ff BLBA 0x32d948218 OP 0x88, LBA 0x32d948200, SZ 0x80 . A 11/15/20 18:06:18.548 Bus0 Enc0 Dsk02 11c4004 [WARN] System: Disk 0_0_2 Soft media error. DrvErrExtStat:0x22 SRT 66ms ST 0x7680628d0f1 ET 0x7680629d1c6 . [Recovered error (on-drive ECC)] A 11/15/20 18:06:18.566 Bus0 Enc0 Dsk02 11c0006 [INFO] System: Disk 0_0_2 01|18|ff BLBA 0x2d6cce4d8 OP 0x88, LBA 0x2d6cce4d0, SZ 0x10 . >>> followed by Soft SCSI bus errors (Incidental abort and selection timeout) A 11/15/20 18:17:33.877 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0xdd SRT 522ms ST 0x7682e5dd934 ET 0x7682e65cf8b . [IncidentalAbort] B 11/15/20 18:17:33.892 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0xdd SRT 535ms ST 0x768280ad284 ET 0x7682812faab . [IncidentalAbort] A 11/15/20 18:17:33.910 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x7 SRT 537ms ST 0x7682e5d9c09 ET 0x7682e65cfc5 . [Select timeout] >>> followed by repeated command timeout. A 11/15/20 20:44:30.049 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x6 SRT 4340ms ST 0x76a3b63f4df ET 0x76a3ba4175c . [Command timeout] A 11/15/20 20:44:30.069 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x6 SRT 4201ms ST 0x76a3b641f27 ET 0x76a3ba41b53 . [Command timeout] A 11/15/20 20:44:30.090 Bus0 Enc0 Dsk02 11c4003 [WARN] System: Disk 0_0_2 Soft SCSI bus error. DrvErrExtStat:0x6 SRT 4210ms ST 0x76a3b63e5a2 ET 0x76a3ba41f97 . [Command timeout] >>> drive reported too many port errors and was logged out, then it could not log in again. It failed on SPB with the Activate timer expired. B 11/16/20 05:52:47.360 Bus0 Enc0 LccB 1678052 [ERROR] System: LCC is faulted. This failure may be caused by a component other than the LCC (Drive, Cable, Connector, ...). B 11/16/20 05:54:42.263 Bus0 Enc0 Dsk02 60258 [CRIT] User: Disk 0_0_2 has failed (Part Number 005053578, Serial Number 50L0A01FTT2F) B 11/16/20 05:54:42.879 Bus0 Enc0 LccB 602bc [CRIT] User: LCC has faulted (Part Number 303-396-000B-00, Serial Number CF2DD201400245) B 11/16/20 05:55:23.571 Bus0 Enc0 Dsk02 1678058 [ERROR] System: Disk 0_0_2 taken offline. Escalate to support. SN:50L0A01FTT2F TLA:005053578 Rev:PA5H (0x2030001) Reason:Expired.
Sistemas que podem ser afetados:
| Produto (e versão) | Dell Unity 300F, Dell Unity 350F, Dell Unity XT 380F, Dell Unity 400F, Dell Unity 450F, Dell Unity XT 480F, Dell Unity 600F, Dell Unity 650F, Dell Unity XT 680F, Dell Unity XT 880F, Família Dell Unity |Dell Unity All-Flash |
| Executar este software principal (sistema operacional (SO) ou ambiente operacional (OE)) |
Todos os ambientes operacionais |
| Quando essa condição é verdadeira | O array contém qualquer um dos seguintes números de peça de unidade com firmware PA5H 005052867, 005052866, 005052869, 005052868, 005052871, 005052870, 005053573, 005053572, 005053577, 005053576, 005053579, 005053578, 005052859, 005052858, 005052861, 005052860, 005052863, 005052862, 005053583, 005053582, 005053596, 005053595, 005053598, 005053597, 005053575, 005053574 |
Cause
Geralmente, a recuperação integrada de erros das unidades responde dentro de limites de tempo aceitáveis. No entanto, devido a um defeito de NAND, o número de blocos obrigatórios para a recuperação pode ser grande e, em combinação com as configurações de longo tempo de espera excedido dos comandos, podem causar tempos de espera excedidos excessivos dos comandos e afetar o desempenho do array.
Resolution
| Tipo de ação | Resolução |
| Ações necessárias | Faça upgrade do firmware de unidade para PA5L para resolver o problema. |
| Quem pode concluir a ação | Cliente |
| Problema abordado neste SO, OE ou software |
Firmware PA5L disponível em www.dell.com/support no pacote de firmware de unidade Unity V18 ou superior.
|
| Procedimento SolVe de resolução do cliente | Para obter informações adicionais sobre como fazer upgrade do firmware de unidade, selecione "Procedimentos de upgrade de software" no SolVe for Dell Unity. ou siga o artigo Instruções e informações de upgrade de firmware de unidade |
| Detalhe da resolução | Arrays que estão enfrentando problemas de desempenho no momento: Para obter ajuda imediata para os problemas de desempenho, retire a unidade com problema do pool. Quando a unidade estiver fora do pool, o desempenho deverá melhorar imediatamente. Para fazer isso: Se o acesso físico ao sistema estiver disponível: Remova a unidade identificada como relatando erro de barramento SCSI flexível e [Tempo de espera excedido do comando] Troque a unidade removida por uma unidade sobressalente equivalente. Aguarde cinco minutos para inserir a unidade de substituição para permitir que o sistema seja recriado da paridade até a unidade sobressalente. Entre em contato com o suporte técnico da Dell, conforme necessário, para solicitar a substituição da unidade que está causando os problemas de desempenho. Se nenhum acesso físico ao sistema estiver disponível imediatamente e para discutir outras possíveis soluções temporárias, entre em contato com o suporte técnico da Dell ou com um representante de serviço autorizado e mencione o número deste artigo do DTA. Faça upgrade do firmware de unidade para PA5L. Certifique-se de que o novo array instale o upgrade para o firmware de unidade PA5L NOTA: O firmware PA5L tem o intuito de substituir as unidades que relatam erros excessivos 01/18/ff e de tempo de espera excedido dos comandos, o que ocorrer primeiro. Observe que um impacto secundário no desempenho pode ocorrer durante uma substituição de unidade, uma reconstrução ou uma operação de remanejamento/rebalanceamento em pools dinâmicos. A 000055614 da LKB será atualizada adequadamente quando esse problema for resolvido. Consulte o 000021322 da LKB para obter instruções sobre como atualizar o firmware de unidade. Os pacotes de firmware de unidade do Unity estão disponíveis para download em www.dell.com/support e podem ser encontrados pesquisando por "Unity Drive Firmware Package". |