Data Domain: Várias unidades falham durante o failover de sistemas de alta disponibilidade | Problema de FW CA01 CA02
Summary: O Data Domain High Availability (HA) pode apresentar falhas de unidade durante o failover de HA devido a um problema conhecido de firmware de unidade. O file system de alguns sistemas pode não conseguir inicializar após um failover ou uma reinicialização. ...
Symptoms
A falha de componente é limitada a unidades de 8 TB com revisões de firmware CA01 e CA02. Normalmente, vários grupos de RAID (grupos de discos) são afetados. Ela pode ser degradada única (uma falha) ou degradada dupla (duas falhas de disco).
Os sistemas que não forem reinicializados identificarão uma interrupção do file system, mas deverão se recuperar por conta própria, com várias recriações de disco em andamento e pendentes. No caso de sistemas que não forem reinicializados, um failover será forçado, podendo fazer com que o file system trave durante a inicialização.
Aplicável a:
- Somente modelos DD9400 e DD9900
- Disco rígido de 8 TB em compartimentos de armazenamento externo com versão de firmware (FW) CA01 ou CA02
Correção:
- Versões corrigidas do DDOS: As versões do DDOS 7.11.x, 7.10.1.0, 7.7.5.1 e posteriores apresentam o firmware CA04 integrado.
- Um Upgrade Minimamente Disruptivo (MDU) está disponível para todas as outras versões do DDOS 7.x.
- Link para MDU: Leia-me + Download: Pacote de upgrade minimamente disruptivo (MDU) de firmware do disco rígido DDOS 7.X — novembro de 2022 (é necessário fazer login como usuário registrado do Suporte Dell para visualizar o documento)
Nota: O file system deve estar desabilitado ao aplicar o MDU.
Sintomas de falha do disco:
- Os logs do disco reportam a chave de status
4/0x29/0xcdao fazer uma gravação SCSIcdb 0x8a, um erro de comando de gravação causa a falha do disco pelo módulo DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- Falha nos discos do DD_RAID devido a erros de "E/S de gravação".
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
Sintomas da incapacidade de inicialização do DDFS:
- Em ddfs.info, as mensagens abaixo indicam um longo período de tempo na inicialização do DDFS. Ela não progride até que o processo do DDFS seja encerrado, forçando um failover no nó par.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) ===== 09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) ===== 09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub ... 09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
Cause
Causa raiz da condição de falha do disco:
O buffer de cache DRAM da unidade identifica um erro falso de integridade dos dados em uma carga de trabalho de E/S aleatória. O fabricante da unidade disponibilizou uma correção de firmware para resolver esse problema.
Resolution
Solução temporária
Se ocorrer uma reinicialização ou failover, a capacidade de o DD_RAID realizar o "failback" nas unidades com falha não é uma opção. Nesse caso, permita que as recriações tradicionais de disco (paridade) sejam concluídas. Desative o GC até que todas as recriações de disco sejam concluídas. Se o file system não conseguir ser iniciado após uma reinicialização ou um failover, consulte um TSE do DDFS antes de encerrar o processo do DDFS.
Se não tiver ocorrido uma reinicialização ou um failover, o DD_RAID poderá realizar o "failback" na recriação dos discos com falha. Esta é uma operação manual usando "dd_raidtool" em bash. Antes de iniciar o "failback" do disco, os slots de disco com falha devem ser religados; Entre em contato com o suporte técnico Dell para fazer isso.
Com base na experiência prática, permita que as recriações de disco acima de 50% sejam concluídas, em vez de alternar para a reconstrução com failback.
Depois que todas as recriações forem concluídas, as unidades que ainda apresentarem falha poderão ficar com o status "unfailed" se seus respectivos slots tiverem sido reiniciados.
Correção
A versão CA04 do firmware de disco agora está disponível como um patch de MDU, no formato de um pacote de upgrade do DDOS. Entre em contato com o suporte para obter uma cópia do RPM. Ele está localizado em /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.
Perguntas frequentes:
- O upgrade pode ser feito com um file system do Data Domain on-line?
Não, o DDFS deve estar off-line/desativado durante o upgrade do FW. - Uma reinicialização é necessária?
Não, uma reinicialização não é necessária. - O FW pode ser aplicado no nó passivo?
Não, ele não pode ser aplicado no nó passivo. Ele deve ser executado somente no nó ativo. - Quanto tempo leva para concluir o upgrade do FW drive-firmware-CA04.RPM nas unidades 180-240(4-DS60)?
O upgrade é feito no modo paralelo e leva de 10 a 15 minutos, se não houver problemas. - Se não houver atualização em todas as unidades, o sistema atualizará automaticamente as unidades não CA04?
Não, a atualização precisará ser executada novamente ou poderá ser feita manualmente. Consulte "Informações adicionais" abaixo. - É necessário aplicar o patch do FW drive-firmware-CA04.RPM igualmente a outros DDs sem HA, visto que eles também podem conter as unidades no FW mais antigo?
É recomendável aplicar também o FW drive-firmware-CA04.RPM a DDs sem HA com unidades de 8 TB. - Se uma unidade falhar durante a atualização, ela poderá ser cancelada?
Se uma unidade falhar antes ou durante a atualização do firmware, verifique o histórico de erros do disco (por exemplo, "disk show reliability-data"). Se o disco tiver erros, ele deverá permanecer com o status "failed" e precisará ser substituído. Se o disco não tiver erros, execute o comando "disk unfail <disk.id>" para transformar o status "failed" da unidade em "spare". Se uma unidade com falha for substituída por uma unidade com o firmware de unidade CA01/CA02 mais antigo, a unidade precisará ser atualizada manualmente. Consulte "Como atualizar manualmente as unidades de substituição" na seção adicional abaixo. - Por que é necessário suspender a atividade no grupo de discos 2 (dg2), mesmo quando o DDFS está inativo?
O DDOS continua a ter acesso às montagens EXT3 existentes no dg2.
Aplicando o pacote de MDU:
- Conecte-se ao nó ativo do sistema de HA. A atualização não funciona no nó passivo ou em espera.
- Agende o tempo de inatividade com o usuário, pois o DDFS deve ser desativado durante a atualização do firmware. Execute os seguintes comandos para verificar os alertas atuais e tratá-los conforme necessário. Interrompa o processo de limpeza caso esteja em execução. Desabilite o file system.
# alerts show current# filesys clean status# filesys clean stop# filesys disable - Para sistemas que não passaram pela migração de armazenamento, verifique, no autosupport, os discos CA01/CA02 que fazem parte de >=dg2. Para sistemas que passaram pela migração de armazenamento, o grupo de discos com arrays ext3 pode não estar no dg2.
Pesquise por ext3. Ele está mostrando DD_RAID histograma para dgXX onde XX é o número DG. Veja o exemplo na seção "Informações adicionais" abaixo. Se os discos dg2/dgXX tiverem firmware CA01/C02, o array deverá ser suspenso temporariamente durante o processo de upgrade do MDU. A falha ao fazer isso pode acionar outra falha se toda a atividade de E/S no grupo de discos não estiver suspensa. Abra um caso de suporte para obter assistência para suspender o grupo de discos. Se o dg2/dgXX não contiver discos CA01/CA02, um caso de suporte não será necessário. Vá para a etapa 4. - Carregue o
drive-firmware-CA04.rpmna interface do usuário do DD System Manager. - Faça upgrade dos discos. Execute o comando a seguir e aguarde a conclusão.
# system upgrade start drive-firmware-CA04.rpm" - Aguarde cerca de 10 minutos.
- Verifique se o upgrade foi aplicado a todos os discos. Se os discos ainda forem exibidos com o firmware CA01/CA02, repita as Etapas 5 e 6.
# disk show hardware - Verifique o estado atual do disco. Se houver várias falhas de disco, entre em contato com o suporte para obter assistência. Para falhas em um disco único, verifique se há histórico de erros no disco e, se não houver erros, retire o status "failed" do disco.
# disk unfail <disk.id> - Verifique os alertas e ative o DDFS.
# alerts show current# filesys enable
Additional Information
Como verificar se há discos dg2/dgXX com o array ext3 e o firmware CA01/CA02.
No caso de sistemas migrados sem ser de armazenamento, o dg2 tem os arrays ext3.
Pesquise as seguintes linhas no autosupport. (Em negrito)
- DD_RAID Histogram
DD_RAID Histogram for dg2 0xafc318cb033dc226 DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All (esse comando também pode ser executado na CLI do DD)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB 2.37-2.39, 2.49-2.50
- Disk Show Hardware (esse comando pode ser executado na CLI do DD)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919 2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919 2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919 2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919 2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919 2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919 2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919 2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919 2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919 2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919 2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919 2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919 2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919 2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919 2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
No exemplo acima, as unidades têm o firmware CA01. Um caso de suporte deve ser aberto para que a Dell Technologies possa ajudar a suspender o grupo de discos (dg2) que contém o array ext3 antes que o upgrade do MDU seja aplicado.
No caso de sistemas migrados de armazenamento, o array que contém ext3 pode não ser o dg2. Pesquise as seguintes linhas no autosupport. (Em negrito)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses -------- System locking-id: APX00123456789 Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode Capacity licenses: ## Feature Shelf Model Capacity Type State Expiration Date Note -- --------------- ------------ ----------- --------- ------ --------------- ---- 1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a -- --------------- ------------ ----------- --------- ------ --------------- ---- Licensed Active Tier capacity: 1396.98 TiB* * Depending on the hardware platform, usable filesystem capacities may vary. Feature licenses: ## Feature Count Type State Expiration Date Note -- ---------------------------------------- ----- ---------- ------ --------------- --------------- 1 REPLICATION 1 permanent active n/a 2 VTL 1 permanent active n/a 3 DDBOOST 1 permanent active n/a 4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a 5 ENCRYPTION 1 permanent active n/a 6 I/OS 1 permanent active n/a 7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a 8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20 -- ---------------------------------------- ----- ---------- ------ --------------- --------------- License file last modified at : 2022/08/29 11:02:13.
- DD_RAID Histogram
DD_RAID Histogram for dg23 0x323d6b863ae21b8f DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB 6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785 6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785 6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785 6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785 6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785 6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785 6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785 6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
Como as unidades não têm firmware CA01 e CA02, não é necessário um caso de suporte. Na seção "Resolução" acima, vá para a Etapa 3 do upgrade MDU.