Data Domain: Várias unidades falham durante o failover de sistemas de alta disponibilidade | Problema de FW CA01 CA02

Summary: O Data Domain High Availability (HA) pode apresentar falhas de unidade durante o failover de HA devido a um problema conhecido de firmware de unidade. O file system de alguns sistemas pode não conseguir inicializar após um failover ou uma reinicialização. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

A falha de componente é limitada a unidades de 8 TB com revisões de firmware CA01 e CA02. Normalmente, vários grupos de RAID (grupos de discos) são afetados. Ela pode ser degradada única (uma falha) ou degradada dupla (duas falhas de disco).

Os sistemas que não forem reinicializados identificarão uma interrupção do file system, mas deverão se recuperar por conta própria, com várias recriações de disco em andamento e pendentes. No caso de sistemas que não forem reinicializados, um failover será forçado, podendo fazer com que o file system trave durante a inicialização.

Aplicável a:

  • Somente modelos DD9400 e DD9900
  • Disco rígido de 8 TB em compartimentos de armazenamento externo com versão de firmware (FW) CA01 ou CA02

Correção:


Nota: O file system deve estar desabilitado ao aplicar o MDU.


Sintomas de falha do disco:

  • Os logs do disco reportam a chave de status 4/0x29/0xcd ao fazer uma gravação SCSI cdb 0x8a, um erro de comando de gravação causa a falha do disco pelo módulo DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • Falha nos discos do DD_RAID devido a erros de "E/S de gravação".
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

Sintomas da incapacidade de inicialização do DDFS:

  • Em ddfs.info, as mensagens abaixo indicam um longo período de tempo na inicialização do DDFS. Ela não progride até que o processo do DDFS seja encerrado, forçando um failover no nó par.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Cause

Causa raiz da condição de falha do disco:
O buffer de cache DRAM da unidade identifica um erro falso de integridade dos dados em uma carga de trabalho de E/S aleatória. O fabricante da unidade disponibilizou uma correção de firmware para resolver esse problema.

Resolution

Solução temporária

Se ocorrer uma reinicialização ou failover, a capacidade de o DD_RAID realizar o "failback" nas unidades com falha não é uma opção. Nesse caso, permita que as recriações tradicionais de disco (paridade) sejam concluídas. Desative o GC até que todas as recriações de disco sejam concluídas. Se o file system não conseguir ser iniciado após uma reinicialização ou um failover, consulte um TSE do DDFS antes de encerrar o processo do DDFS.

Se não tiver ocorrido uma reinicialização ou um failover, o DD_RAID poderá realizar o "failback" na recriação dos discos com falha. Esta é uma operação manual usando "dd_raidtool" em bash. Antes de iniciar o "failback" do disco, os slots de disco com falha devem ser religados; Entre em contato com o suporte técnico Dell para fazer isso.

Com base na experiência prática, permita que as recriações de disco acima de 50% sejam concluídas, em vez de alternar para a reconstrução com failback.

Depois que todas as recriações forem concluídas, as unidades que ainda apresentarem falha poderão ficar com o status "unfailed" se seus respectivos slots tiverem sido reiniciados. 


Correção

A versão CA04 do firmware de disco agora está disponível como um patch de MDU, no formato de um pacote de upgrade do DDOS. Entre em contato com o suporte para obter uma cópia do RPM. Ele está localizado em /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.


Perguntas frequentes: 

  1. O upgrade pode ser feito com um file system do Data Domain on-line?
    Não, o DDFS deve estar off-line/desativado durante o upgrade do FW.
  2. Uma reinicialização é necessária?
    Não, uma reinicialização não é necessária.
  3. O FW pode ser aplicado no nó passivo?
    Não, ele não pode ser aplicado no nó passivo. Ele deve ser executado somente no nó ativo.
  4. Quanto tempo leva para concluir o upgrade do FW drive-firmware-CA04.RPM nas unidades 180-240(4-DS60)?
    O upgrade é feito no modo paralelo e leva de 10 a 15 minutos, se não houver problemas.
  5. Se não houver atualização em todas as unidades, o sistema atualizará automaticamente as unidades não CA04?
    Não, a atualização precisará ser executada novamente ou poderá ser feita manualmente. Consulte "Informações adicionais" abaixo.
  6. É necessário aplicar o patch do FW drive-firmware-CA04.RPM igualmente a outros DDs sem HA, visto que eles também podem conter as unidades no FW mais antigo?
    É recomendável aplicar também o FW drive-firmware-CA04.RPM a DDs sem HA com unidades de 8 TB.
  7. Se uma unidade falhar durante a atualização, ela poderá ser cancelada?
    Se uma unidade falhar antes ou durante a atualização do firmware, verifique o histórico de erros do disco (por exemplo, "disk show reliability-data"). Se o disco tiver erros, ele deverá permanecer com o status "failed" e precisará ser substituído. Se o disco não tiver erros, execute o comando "disk unfail <disk.id>" para transformar o status "failed" da unidade em "spare". Se uma unidade com falha for substituída por uma unidade com o firmware de unidade CA01/CA02 mais antigo, a unidade precisará ser atualizada manualmente. Consulte "Como atualizar manualmente as unidades de substituição" na seção adicional abaixo.
  8. Por que é necessário suspender a atividade no grupo de discos 2 (dg2), mesmo quando o DDFS está inativo?
    O DDOS continua a ter acesso às montagens EXT3 existentes no dg2.


Aplicando o pacote de MDU:

  1. Conecte-se ao nó ativo do sistema de HA. A atualização não funciona no nó passivo ou em espera.
  2. Agende o tempo de inatividade com o usuário, pois o DDFS deve ser desativado durante a atualização do firmware. Execute os seguintes comandos para verificar os alertas atuais e tratá-los conforme necessário. Interrompa o processo de limpeza caso esteja em execução. Desabilite o file system. 
                # alerts show current
          # filesys clean status
          # filesys clean stop
          # filesys disable
  3. Para sistemas que não passaram pela migração de armazenamento, verifique, no autosupport, os discos CA01/CA02 que fazem parte de >=dg2. Para sistemas que passaram pela migração de armazenamento, o grupo de discos com arrays ext3 pode não estar no dg2. 
    Pesquise por ext3. Ele está mostrando DD_RAID histograma para dgXX onde XX é o número DG. Veja o exemplo na seção "Informações adicionais" abaixo. Se os discos dg2/dgXX tiverem firmware CA01/C02, o array deverá ser suspenso temporariamente durante o processo de upgrade do MDU. A falha ao fazer isso pode acionar outra falha se toda a atividade de E/S no grupo de discos não estiver suspensa. Abra um caso de suporte para obter assistência para suspender o grupo de discos. Se o dg2/dgXX não contiver discos CA01/CA02, um caso de suporte não será necessário. Vá para a etapa 4.
  4. Carregue o drive-firmware-CA04.rpm na interface do usuário do DD System Manager.
  5. Faça upgrade dos discos. Execute o comando a seguir e aguarde a conclusão. 
               # system upgrade start drive-firmware-CA04.rpm"
  6. Aguarde cerca de 10 minutos.
  7. Verifique se o upgrade foi aplicado a todos os discos. Se os discos ainda forem exibidos com o firmware CA01/CA02, repita as Etapas 5 e 6. 
               # disk show hardware
  8. Verifique o estado atual do disco. Se houver várias falhas de disco, entre em contato com o suporte para obter assistência. Para falhas em um disco único, verifique se há histórico de erros no disco e, se não houver erros, retire o status "failed" do disco. 
              # disk unfail <disk.id>
  9. Verifique os alertas e ative o DDFS. 
              # alerts show current
              # filesys enable

Additional Information

Como verificar se há discos dg2/dgXX com o array ext3 e o firmware CA01/CA02.
No caso de sistemas migrados sem ser de armazenamento, o dg2 tem os arrays ext3.

Pesquise as seguintes linhas no autosupport. (Em negrito)

  • DD_RAID Histogram
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All (esse comando também pode ser executado na CLI do DD)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware (esse comando pode ser executado na CLI do DD)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

 

No exemplo acima, as unidades têm o firmware CA01. Um caso de suporte deve ser aberto para que a Dell Technologies possa ajudar a suspender o grupo de discos (dg2) que contém o array ext3 antes que o upgrade do MDU seja aplicado. 

No caso de sistemas migrados de armazenamento, o array que contém ext3 pode não ser o dg2. Pesquise as seguintes linhas no autosupport. (Em negrito)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • DD_RAID Histogram
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


Como as unidades não têm firmware CA01 e CA02, não é necessário um caso de suporte. Na seção "Resolução" acima, vá para a Etapa 3 do upgrade MDU.

Affected Products

Data Domain, DD9400 Appliance, DD9900 Appliance

Products

DD OS 7.11
Article Properties
Article Number: 000204252
Article Type: Solution
Last Modified: 30 Oct 2025
Version:  19
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.