Data Domain: Várias unidades falham durante o failover de sistemas de alta disponibilidade | Problema de FW CA01 CA02
Summary: O Data Domain High Availability (HA) pode apresentar falhas de unidade durante o failover de HA devido a um problema conhecido de firmware de unidade. O file system de alguns sistemas pode não conseguir inicializar após um failover ou uma reinicialização. ...
Symptoms
A falha de componente é limitada a unidades de 8 TB com revisões de firmware CA01 e CA02. Normalmente, vários grupos de RAID (grupos de discos) são afetados. Ela pode ser degradada única (uma falha) ou degradada dupla (falha de dois discos).
Os sistemas que não são reinicializados enfrentam interrupção do file system, mas devem se recuperar por conta própria; com várias recriações de disco em andamento e pendentes. Para os sistemas que são reinicializados, um failover é forçado, o que pode fazer com que o file system trave durante a inicialização.
Aplica-se a:
- Somente modelos DD9400 e DD9900
- Disco rígido de 8 TB em compartimentos de armazenamento externo com versão de firmware (FW) CA01 ou CA02
Sintomas de falha do disco:
- Relatório de registros de disco
sense key 4/0x29/0xcdao fazer uma gravação SCSIcdb 0x8a,Um erro de comando de gravação causa falha do disco pelo módulo DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- Falha nos discos do DD_RAID devido a erros de "E/S de gravação".
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
Sintomas da incapacidade de inicialização do DDFS:
- Em
ddfs.info, as mensagens abaixo são por um longo período durante a inicialização do DDFS. Ela não progride até que o processo do DDFS seja encerrado, forçando um failover no nó par.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====
09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrubCause
Resolution
Correção:
- Versões corrigidas do DDOS: As versões do DDOS 7.11.x, 7.10.1.0, 7.7.5.1 e posteriores apresentam o firmware CA04 integrado.
- Faça upgrade para uma versão mais recente do DDOS
- Um Upgrade Minimamente Disruptivo (MDU) está disponível para todas as outras versões do DDOS 7.x.
- Link para MDU: Leia-me + Download: Pacote de upgrade minimamente disruptivo (MDU) de firmware do disco rígido DDOS 7.X — novembro de 2022 (é necessário fazer login como usuário registrado do Suporte Dell para visualizar o documento)
-
Aplicando o pacote de MDU:
- Conecte-se ao nó ativo do sistema de HA. A atualização não funciona no nó passivo ou em espera.
- Agende o tempo de inatividade com o usuário, pois o DDFS deve ser desativado durante a atualização do firmware. Execute os seguintes comandos para verificar os alertas atuais e tratá-los conforme necessário. Interrompa o processo de limpeza caso esteja em execução. Desabilite o file system.
# alerts show current# filesys clean status# filesys clean stop# filesys disable - Para sistemas que não passaram pela migração de armazenamento, verifique, no autosupport, os discos CA01/CA02 que fazem parte de >=dg2. Para sistemas que passaram pela migração de armazenamento, o grupo de discos com arrays ext3 pode não estar no dg2.
Pesquise por ext3. Ele está mostrando DD_RAID histograma para dgXX onde XX é o número DG. Veja o exemplo na seção "Informações adicionais" abaixo. Se os discos dg2/dgXX tiverem firmware CA01/C02, o array deverá ser suspenso temporariamente durante o processo de upgrade do MDU. A falha ao fazer isso pode acionar outra falha se toda a atividade de E/S no grupo de discos não estiver suspensa. Abra um caso de suporte para obter assistência para suspender o grupo de discos. Se o dg2/dgXX não contiver discos CA01/CA02, um caso de suporte não será necessário. Vá para a etapa 4. - Carregue o
drive-firmware-CA04.rpmna interface do usuário do DD System Manager. - Faça upgrade dos discos. Execute o comando a seguir e aguarde a conclusão.
# system upgrade start drive-firmware-CA04.rpm" - Aguarde cerca de 10 minutos.
- Verifique se o upgrade foi aplicado a todos os discos. Se os discos ainda forem exibidos com o firmware CA01/CA02, repita as Etapas 5 e 6.
# disk show hardware - Verifique o estado atual do disco. Se houver várias falhas de disco, entre em contato com o suporte para obter assistência. Para falhas em um disco único, verifique se há histórico de erros no disco e, se não houver erros, retire o status "failed" do disco.
# disk unfail <disk.id> - Verifique os alertas e ative o DDFS.
# alerts show current# filesys enable
Solução temporária
- Se ocorreu uma reinicialização ou failover:
- DD_RAID não é possível fazer failback de unidades com falha.
- Permitir a conclusão de recriações de disco tradicionais baseadas em paridade.
- Desative a GC até que todas as recriações sejam concluídas.
- Se o file system não iniciar, consulte um TSE do DDFS.
- Se a reinicialização ou o failover NÃO ocorreram:
- DD_RAID TSE pode fazer failback manual de discos usando
dd_raidtool. - Os slots de disco com falha devem ser desligados (entre em contato com o Suporte Dell).
- Permita que as recriações acima de 50% sejam concluídas antes de alternar para a reconstrução de failback.
- Após as reconstruções, os discos podem ser "sem falha" se os slots forem desligados.
- DD_RAID TSE pode fazer failback manual de discos usando
Additional Information
Perguntas frequentes
P: O upgrade de firmware pode ser realizado enquanto o file system do Data Domain está on-line?
Um: Não. O DDFS deve ser desativado durante o upgrade do firmware.
P: É necessário reinicializar o sistema após aplicar a atualização do firmware?
Um: Não. Não é necessário reinicializar.
P: O firmware pode ser aplicado no nó passivo?
Um: Não. A atualização deve ser realizada somente no nó ativo.
P: Quanto tempo leva o upgrade de firmware para 180 a 240 unidades (4 gavetas DS60)?
Um: O upgrade é executado em modo paralelo e normalmente é concluído em 10 a 15 minutos, desde que não haja problemas.
P: Se algumas unidades não forem atualizadas, o sistema repetirá automaticamente a atualização?
Um: Não. A atualização deve ser executada novamente manualmente ou repetida para as unidades restantes. Consulte "Informações adicionais" para obter as etapas de atualização manual.
P: O patch de firmware também deve ser aplicado a sistemas Data Domain sem HA?
Um: Sim. É recomendável aplicar o patch drive-firmware-CA04.RPM a todos os sistemas com unidades de 8 TB que executam firmware mais antigo.
P: Se uma unidade falhar durante a atualização, ela poderá ser recuperada?
Um:
- Se o disco mostrar histórico de erros (verifique com
disk show reliability-data), ele deve permanecer com falha e ser substituído. - Se nenhum erro estiver presente, execute:
Isso marca o disco como sobressalente.disk unfail <disk.id> - Se uma unidade de substituição tiver firmware CA01/CA02 mais antigo, ela deverá ser atualizada manualmente. Consulte "Como atualizar manualmente as unidades de substituição" em Informações adicionais.
P: Por que é necessário suspender a atividade no grupo de discos 2 (dg2) mesmo quando o DDFS está desativado?
Um: O DDOS continua acessando montagens EXT3 no dg2. Suspender a atividade de E/S evita falhas adicionais durante o upgrade.
P: Como verificar se há discos dg2/dgXX que tenham array ext3 e contenham o firmware CA01/CA02.
Um: Para sistemas migrados sem armazenamento, o dg2 tem os arrays ext3.
Pesquise as seguintes linhas no autosupport. (Em negrito)
- DD_RAID Histogram
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All (esse comando também pode ser executado na CLI do DD)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB
2.37-2.39, 2.49-2.50
- Disk Show Hardware (esse comando pode ser executado na CLI do DD)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919
2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919
2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919
2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919
2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919
2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919
2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919
2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919
2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919
2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919
2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919
2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919
2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919
2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919
2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
No exemplo acima, as unidades têm o firmware CA01. Um caso de suporte deve ser aberto para que a Dell Technologies possa ajudar a suspender o grupo de discos (dg2) que contém o array ext3 antes que o upgrade do MDU seja aplicado.
No caso de sistemas migrados de armazenamento, o array que contém ext3 pode não ser o dg2. Pesquise as seguintes linhas no autosupport. (Em negrito)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
## Feature Shelf Model Capacity Type State Expiration Date Note
-- --------------- ------------ ----------- --------- ------ --------------- ----
1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a
-- --------------- ------------ ----------- --------- ------ --------------- ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
## Feature Count Type State Expiration Date Note
-- ---------------------------------------- ----- ---------- ------ --------------- ---------------
1 REPLICATION 1 permanent active n/a
2 VTL 1 permanent active n/a
3 DDBOOST 1 permanent active n/a
4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a
5 ENCRYPTION 1 permanent active n/a
6 I/OS 1 permanent active n/a
7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a
8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20
-- ---------------------------------------- ----- ---------- ------ --------------- ---------------
License file last modified at : 2022/08/29 11:02:13.
- DD_RAID Histogram
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB
6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785
6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785
6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785
6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785
6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785
6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785
6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785
6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785
6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785
6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785
6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785
6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785
6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785
6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785
6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
Como as unidades não têm firmware CA01 e CA02, não é necessário um caso de suporte. Na seção "Resolução" acima, vá para a Etapa 3 do upgrade MDU.