Dell EMC Unity: Erros de unidade que causam falhas de unidade ou problemas de desempenho (podem ser corrigidos pela Dell EMC)
Summary: Problemas graves de desempenho depois que algumas unidades flash começam a registrar erros, mas não são automaticamente interrompidos pelo sistema.
Symptoms
Visão geral:
Dois problemas distintos foram observados para os seguintes números de peça de unidade:
005052377, 005052378, 005052379, 005052380, 005051739, 005051740, 005052154 005052155
Edição # 1.
As unidades falham (definidas como EOL, fim da vida útil) depois que a unidade relata muitos erros de barramento SCSI flexível acompanhados por BUFFER
DE DETECÇÃO INVÁLIDO Unidades com os números de peça listados e que executam firmware PC09, PC0B, PC0D, PC10, PC42 ou PC47
Exemplos de registros do SP (/EMC/backend/log_shared/EMCSystemLogFile.log) semelhantes aos seguintes:
01/29/18 05:41:00.121 Bus0 Enc0 Dsk19 11c4003 [WARN] System: Erro de barramento SCSI flexível do disco. DrvErrExtStat:0x1 SRT 349ms ST 0xcd51723a571 ET 0xcd517285579 . [Falha no comando REQUEST SENSE]
29/01/18 05:41:00.131 Bus0 Enc0 DSK19 11c0006 [INFO] Sistema: Buffer de status inválido do disco 0x28, 0x37d8e000 LBA, SZ 0x800
Edição # 2.
O administrador do sistema observa graves problemas de desempenho no sistema depois que uma unidade começa a registrar erros - Erros de mídia flexível e 01|18|ff
Unidades com os números de peça listados e que executam o firmware PC13 ou PC4A. Os erros podem ser relatados pelo sistema "Soft media error".
A unidade pode relatar que atingiu o fim da vida útil (EOL), mas continua fazendo parte do pool, prejudicando o desempenho de todas as LUNs/FSs do pool afetado.
O problema tem sido observado principalmente em pools dinâmicos All-Flash, mas pode envolver pools tradicionais contendo unidades flash dos números de peça afetados.
27/04/18 21:52:52.909 Bus1 Enc0 Dsk02 11C4004 [WARN] Sistema: Erro de mídia soft no disco 1_0_2. DrvErrExtStat:0x22 SRT 69ms ST 0x5eae3254c6d ET 0x5eae32659fa . [Erro recuperado (ECC na unidade)]
27/04/18 21:52:52.921 Bus1 Enc0 Dsk02 11C0006 [INFO] Sistema: Disco 1_0_2 01|18|ff BLBA 0x127fedd0 OP 0x2f, LBA
Cause
Edição # 1: A unidade relata erros de barramento SCSI flexível acompanhados por BUFFER
DE DETECÇÃO INVÁLIDOA causa dos erros é um comprimento de campo de detecção de dados incorreto retornado pela unidade: Embora o requisito da Dell EMC especifique que o tamanho máximo permitido para os dados de status do formato do descritor é de 48 bytes, o firmware gera dados de status no formato do descritor com mais de 48 bytes.
Edição # 2: A unidade relata erros de mídia soft e 01|18|ff
A causa dos erros de mídia flexível é o código do Unity reconhecendo incorretamente os erros retornados pela unidade. Em ambos os casos, os erros retornados pela unidade não são reconhecidos corretamente pelo código do Unity, enquanto a taxa de erros para boas E/Ss continua baixa, fazendo com que a unidade continue operando em um estado não ideal por um longo período e afetando o desempenho de todas as LUNs/FSs no pool.
Resolution
Edição # 1:
O Dell EMC Unity OE 4.2.1.9535982 e versões posteriores resolve esse problema e é recomendável que o software do array seja atualizado para a versão mais recente.
Além disso, atualizações de firmware de unidade são altamente recomendadas para evitar problemas futuros. Veja abaixo.
Edição # 2: A unidade relata erros de mídia soft e 01|18|ff
Para alívio imediato do problema de desempenho, a unidade infratora deve ser retirada do pool. Quando a unidade estiver fora do pool, o desempenho deverá melhorar imediatamente.
- Se o acesso físico ao sistema estiver disponível, remova a unidade com problema do slot e entre em contato com o suporte técnico da Dell EMC para solicitar uma substituição de unidade.
- Se nenhum acesso físico ao sistema estiver disponível imediatamente e para discutir outras possíveis soluções temporárias, entre em contato com o suporte técnico da Dell EMC ou com seu representante de serviço autorizado e mencione o ID deste artigo da base de conhecimento.
Recomendações:
Para resolver os problemas #1 e #2, é recomendável atualizar o firmware da unidade para as versões listadas abaixo ou superiores. O pacote V9 de firmware da unidade Unity, lançado em 27 de fevereiro de 2019, contém firmware para os seguintes números de peça e versões
de firmware correspondentes 005052377 - QC4E
005052378 - QC4E
005052379 - QC4E
005052380 - QC4E
005051739 PC16
005051740 PC16
005052154 PC16
005052155 PC16
Consulte o artigo KB 490700 https://support.emc.com/kb/490700 obter instruções sobre como atualizar o firmware de unidade.
O pacote mais recente de firmware de unidade do Unity está disponível para download na página de suporte e pode ser encontrado pesquisando por "Unity_Drive_Firmware_Package".
Consulte o 528178 do DTA: Dell EMC Unity: Erros de mídia flexível da unidade podem resultar em problemas de desempenho e indisponibilidade de dados (passível de correção pelo usuário)liberados para unidades 005052377 005052378 005052379 e 005052380
Additional Information
| https://downloads.dell.com/TranslatedPDF/ES_KB521649.pdf |
| https://downloads.dell.com/TranslatedPDF/DE_KB521649.pdf |
| https://downloads.dell.com/TranslatedPDF/FR_KB521649.pdf |
| https://downloads.dell.com/TranslatedPDF/IT_KB521649.pdf |
| https://downloads.dell.com/TranslatedPDF/JA_KB521649.pdf |
| https://downloads.dell.com/TranslatedPDF/KO_KB521649.pdf |