Data Domain: Várias unidades falham durante o failover de sistemas de alta disponibilidade | Problema de FW CA01 CA02

Summary: O Data Domain High Availability (HA) pode apresentar falhas de unidade durante o failover de HA devido a um problema conhecido de firmware de unidade. O file system de alguns sistemas pode não conseguir inicializar após um failover ou uma reinicialização. ...

Acest articol se aplică pentru Acest articol nu se aplică pentru Acest articol nu este legat de un produs specific. Acest articol nu acoperă toate versiunile de produs existente.

Symptoms

A falha de componente é limitada a unidades de 8 TB com revisões de firmware CA01 e CA02. Normalmente, vários grupos de RAID (grupos de discos) são afetados. Ela pode ser degradada única (uma falha) ou degradada dupla (falha de dois discos).

Os sistemas que não são reinicializados enfrentam interrupção do file system, mas devem se recuperar por conta própria; com várias recriações de disco em andamento e pendentes. Para os sistemas que são reinicializados, um failover é forçado, o que pode fazer com que o file system trave durante a inicialização.

Aplica-se a:

  • Somente modelos DD9400 e DD9900
  • Disco rígido de 8 TB em compartimentos de armazenamento externo com versão de firmware (FW) CA01 ou CA02

Sintomas de falha do disco:

  • Relatório de registros de disco sense key 4/0x29/0xcd ao fazer uma gravação SCSI cdb 0x8a, Um erro de comando de gravação causa falha do disco pelo módulo DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • Falha nos discos do DD_RAID devido a erros de "E/S de gravação".
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

Sintomas da incapacidade de inicialização do DDFS:

  • Em ddfs.info, as mensagens abaixo são por um longo período durante a inicialização do DDFS. Ela não progride até que o processo do DDFS seja encerrado, forçando um failover no nó par.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Cause

O buffer de cache DRAM da unidade identifica um erro falso de integridade dos dados em cargas de trabalho de E/S aleatórias. Isso aciona falhas de disco.
O fabricante da unidade forneceu uma correção de firmware para resolver esse problema.

Resolution

Correção:

  • Versões corrigidas do DDOS: As versões do DDOS 7.11.x, 7.10.1.0, 7.7.5.1 e posteriores apresentam o firmware CA04 integrado.
    • Faça upgrade para uma versão mais recente do DDOS
  • Um Upgrade Minimamente Disruptivo (MDU) está disponível para todas as outras versões do DDOS 7.x.
    • Link para MDU: Leia-me + Download: Pacote de upgrade minimamente disruptivo (MDU) de firmware do disco rígido DDOS 7.X — novembro de 2022 (é necessário fazer login como usuário registrado do Suporte Dell para visualizar o documento)
    • Aplicando o pacote de MDU:

      1. Conecte-se ao nó ativo do sistema de HA. A atualização não funciona no nó passivo ou em espera.
      2. Agende o tempo de inatividade com o usuário, pois o DDFS deve ser desativado durante a atualização do firmware. Execute os seguintes comandos para verificar os alertas atuais e tratá-los conforme necessário. Interrompa o processo de limpeza caso esteja em execução. Desabilite o file system. 
                    # alerts show current
              # filesys clean status
              # filesys clean stop
              # filesys disable
      3. Para sistemas que não passaram pela migração de armazenamento, verifique, no autosupport, os discos CA01/CA02 que fazem parte de >=dg2. Para sistemas que passaram pela migração de armazenamento, o grupo de discos com arrays ext3 pode não estar no dg2. 
        Pesquise por ext3. Ele está mostrando DD_RAID histograma para dgXX onde XX é o número DG. Veja o exemplo na seção "Informações adicionais" abaixo. Se os discos dg2/dgXX tiverem firmware CA01/C02, o array deverá ser suspenso temporariamente durante o processo de upgrade do MDU. A falha ao fazer isso pode acionar outra falha se toda a atividade de E/S no grupo de discos não estiver suspensa. Abra um caso de suporte para obter assistência para suspender o grupo de discos. Se o dg2/dgXX não contiver discos CA01/CA02, um caso de suporte não será necessário. Vá para a etapa 4.
      4. Carregue o drive-firmware-CA04.rpm na interface do usuário do DD System Manager.
      5. Faça upgrade dos discos. Execute o comando a seguir e aguarde a conclusão. 
                   # system upgrade start drive-firmware-CA04.rpm"
      6. Aguarde cerca de 10 minutos.
      7. Verifique se o upgrade foi aplicado a todos os discos. Se os discos ainda forem exibidos com o firmware CA01/CA02, repita as Etapas 5 e 6. 
                   # disk show hardware
      8. Verifique o estado atual do disco. Se houver várias falhas de disco, entre em contato com o suporte para obter assistência. Para falhas em um disco único, verifique se há histórico de erros no disco e, se não houver erros, retire o status "failed" do disco. 
                  # disk unfail <disk.id>
      9. Verifique os alertas e ative o DDFS. 
                  # alerts show current
                  # filesys enable
Nota: O file system deve estar desabilitado ao aplicar o MDU.

Solução temporária

  • Se ocorreu uma reinicialização ou failover:
    • DD_RAID não é possível fazer failback de unidades com falha.
    • Permitir a conclusão de recriações de disco tradicionais baseadas em paridade.
    • Desative a GC até que todas as recriações sejam concluídas.
    • Se o file system não iniciar, consulte um TSE do DDFS.
  • Se a reinicialização ou o failover NÃO ocorreram:
    • DD_RAID TSE pode fazer failback manual de discos usando dd_raidtool.
    • Os slots de disco com falha devem ser desligados (entre em contato com o Suporte Dell).
    • Permita que as recriações acima de 50% sejam concluídas antes de alternar para a reconstrução de failback.
    • Após as reconstruções, os discos podem ser "sem falha" se os slots forem desligados.

Additional Information

Perguntas frequentes

P: O upgrade de firmware pode ser realizado enquanto o file system do Data Domain está on-line?
Um: Não. O DDFS deve ser desativado durante o upgrade do firmware.


P: É necessário reinicializar o sistema após aplicar a atualização do firmware?
Um: Não. Não é necessário reinicializar.


P: O firmware pode ser aplicado no nó passivo?
Um: Não. A atualização deve ser realizada somente no nó ativo.


P: Quanto tempo leva o upgrade de firmware para 180 a 240 unidades (4 gavetas DS60)?
Um: O upgrade é executado em modo paralelo e normalmente é concluído em 10 a 15 minutos, desde que não haja problemas.


P: Se algumas unidades não forem atualizadas, o sistema repetirá automaticamente a atualização?
Um: Não. A atualização deve ser executada novamente manualmente ou repetida para as unidades restantes. Consulte "Informações adicionais" para obter as etapas de atualização manual.


P: O patch de firmware também deve ser aplicado a sistemas Data Domain sem HA?
Um: Sim. É recomendável aplicar o patch drive-firmware-CA04.RPM a todos os sistemas com unidades de 8 TB que executam firmware mais antigo.


P: Se uma unidade falhar durante a atualização, ela poderá ser recuperada?
Um:

  • Se o disco mostrar histórico de erros (verifique com disk show reliability-data), ele deve permanecer com falha e ser substituído.
  • Se nenhum erro estiver presente, execute:
    disk unfail <disk.id>
    
    Isso marca o disco como sobressalente.
  • Se uma unidade de substituição tiver firmware CA01/CA02 mais antigo, ela deverá ser atualizada manualmente. Consulte "Como atualizar manualmente as unidades de substituição" em Informações adicionais.

P: Por que é necessário suspender a atividade no grupo de discos 2 (dg2) mesmo quando o DDFS está desativado?
Um: O DDOS continua acessando montagens EXT3 no dg2. Suspender a atividade de E/S evita falhas adicionais durante o upgrade.


P: Como verificar se há discos dg2/dgXX que tenham array ext3 e contenham o firmware CA01/CA02.
Um: Para sistemas migrados sem armazenamento, o dg2 tem os arrays ext3.

Pesquise as seguintes linhas no autosupport. (Em negrito)

  • DD_RAID Histogram
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All (esse comando também pode ser executado na CLI do DD)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware (esse comando pode ser executado na CLI do DD)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

No exemplo acima, as unidades têm o firmware CA01. Um caso de suporte deve ser aberto para que a Dell Technologies possa ajudar a suspender o grupo de discos (dg2) que contém o array ext3 antes que o upgrade do MDU seja aplicado. 

No caso de sistemas migrados de armazenamento, o array que contém ext3 pode não ser o dg2. Pesquise as seguintes linhas no autosupport. (Em negrito)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • DD_RAID Histogram
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


Como as unidades não têm firmware CA01 e CA02, não é necessário um caso de suporte. Na seção "Resolução" acima, vá para a Etapa 3 do upgrade MDU.

Produse afectate

Data Domain, DD9400 Appliance, DD9900 Appliance

Produse

DD OS 7.11
Proprietăți articol
Article Number: 000204252
Article Type: Solution
Ultima modificare: 16 Dec 2025
Version:  20
Găsiți răspunsuri la întrebările dvs. de la alți utilizatori Dell
Servicii de asistență
Verificați dacă dispozitivul dvs. este acoperit de serviciile de asistență.