Data Domain: Guasto di più unità durante il failover dei sistemi HA | CA01 Problema CA02 FW

Summary: Data Domain High Availability (HA) può riscontrare errori nelle unità durante il failover HA a causa di un problema noto del firmware delle unità. Alcuni sistemi potrebbero non essere in grado di avviare il file system dopo un failover o un riavvio. ...

Acest articol se aplică pentru Acest articol nu se aplică pentru Acest articol nu este legat de un produs specific. Acest articol nu acoperă toate versiunile de produs existente.

Symptoms

L'errore dei componenti è limitato a unità da 8 TB con revisioni del firmware CA01 e CA02. In genere, sono interessati più gruppi RAID (gruppi di dischi). Può essere danneggiata singolarmente (un errore) o doppiamente danneggiata (due guasti del disco).

I sistemi che non si riavviano riscontrano un'interruzione del file system, ma dovrebbero ripristinarsi autonomamente, con più ricostruzioni di dischi in corso e in sospeso. Per i sistemi che si riavviano, viene forzato un failover, che può causare il blocco del file system durante l'avvio.

Si applica a:

  • Solo modelli DD9400 e DD9900
  • Disco rigido da 8 TB in enclosure di storage esterno con firmware (FW) versione CA01 o CA02

Sintomi di errori dei dischi:

  • Report dei registri del disco sense key 4/0x29/0xcd quando viene eseguita una scrittura SCSI cdb 0x8a, Un errore di comando di scrittura causa un guasto del disco da parte del modulo DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • DD_RAID determina errori nei dischi a causa di errori "WRITE I/O".
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

Sintomi del mancato avvio di DDFS:

  • Pollici ddfs.info, i messaggi riportati di seguito sono relativi a un lungo periodo di tempo durante l'avvio di DDFS. Non procede fino a quando il processo DDFS non viene terminato forzando un failover sul nodo peer.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Cause

Il buffer della cache DRAM dell'unità rileva un falso errore di integrità dei dati in caso di carichi di lavoro I/O casuali. In questo modo si verificano errori del disco.
Il produttore dell'unità ha fornito una correzione del firmware per risolvere il problema.

Resolution

Correzione:

  • Problema risolto nelle seguenti versioni di DDOS: DDOS 7.11.x, 7.10.1.0 e 7.7.5.1 e versioni successive dispongono del firmware CA04 integrato.
    • Aggiornamento a una versione più recente di DDOS
  • Un aggiornamento MDU (Minimal Disruptive Upgrade) è disponibile per tutte le altre versioni di DDOS 7.x.
    • Collegamento a MDU: Leggimi + Scarica: Pacchetto MDU (Minimally Disruptive Upgrade) del firmware per disco rigido DDOS 7.X - Novembre 2022 (per visualizzare il documento è necessario accedere come utente registrato del supporto Dell)
    • Applicazione del pacchetto MDU:

      1. Connettersi al nodo attivo del sistema HA. L'aggiornamento non funziona dal nodo passivo o di standby.
      2. Pianificare il downtime con l'utente poiché DDFS deve essere disabilitato durante l'aggiornamento del firmware. Eseguire i seguenti comandi per controllare gli avvisi correnti e gestirli in base alle esigenze. Arrestare il processo di pulizia, se in esecuzione. Disabilitare il file system. 
                    # alerts show current
              # filesys clean status
              # filesys clean stop
              # filesys disable
      3. Verificare in AutoSupport la presenza di dischi CA01/CA02 che fanno parte di >=dg2 per i sistemi che non sono stati sottoposti a migrazione dello storage. Per i sistemi sottoposti a migrazione dello storage, il gruppo di dischi con array ext3 potrebbe non essere dg2. 
        Cercare ext3. Mostra DD_RAID istogramma per dgXX, dove XX è il numero DG. Vedere l'esempio nella sezione "Ulteriori informazioni" di seguito. Se i dischi dg2/dgXX dispongono di firmware CA01/C02, l'array deve essere sospeso temporaneamente durante il processo di aggiornamento MDU. In caso contrario, si può attivare un altro errore se tutte le attività di I/O nel gruppo di dischi non vengono sospese. Aprire una richiesta di assistenza per la sospensione del gruppo di dischi. Se dg2/dgXX non contiene dischi CA01/CA02, non è necessaria una richiesta di assistenza. Andare al passaggio 4.
      4. Carica il file drive-firmware-CA04.rpm dall'interfaccia utente di DD System Manager.
      5. Aggiornare i dischi. Eseguire il seguente comando e attendere il completamento. 
                   # system upgrade start drive-firmware-CA04.rpm"
      6. Attendere circa 10 minuti.
      7. Verificare che tutti i dischi siano aggiornati. Se continuano a essere visualizzati dischi con il firmware CA01/CA02, ripetere i passaggi 5 e 6. 
                   # disk show hardware
      8. Controllare lo stato corrente del disco. Se sono presenti vari dischi con errori, contattare il supporto per ricevere assistenza. Per gli errori su un singolo disco, controllare la cronologia degli errori e, se non sono presenti, correggere lo stato del disco. 
                  # disk unfail <disk.id>
      9. Verificare gli avvisi e abilitare DDFS. 
                  # alerts show current
                  # filesys enable
Nota: il file system deve essere disabilitato quando si applica l'MDU.

Soluzione alternativa

  • Se si è verificato un riavvio o un failover:
    • DD_RAID impossibile eseguire il failback delle unità guaste.
    • Consentire il completamento delle tradizionali ricostruzioni del disco basate su parità.
    • Disabilitare GC fino al completamento di tutte le ricostazioni.
    • Se il file system non si avvia, consultare un TSE DDFS.
  • Se NON si è verificato il riavvio o il failover:
    • DD_RAID TSE può eseguire manualmente il failback dei dischi utilizzando dd_raidtool.
    • Gli slot dei dischi guasti devono essere spenti e riaccesi (contattare il supporto Dell).
    • Attendere il completamento delle ricostruzioni oltre il 50% prima di passare alla ricostruzione del failback.
    • Dopo le ricostruzioni, i dischi possono essere "unfailed" se gli slot sono stati spenti e riaccesi.

Additional Information

DOMANDE FREQUENTI

D. È possibile eseguire l'aggiornamento del firmware mentre il file system di Data Domain è online?
Un: No. DDFS deve essere disabilitato durante l'aggiornamento del firmware.


D. È necessario riavviare il sistema dopo l'applicazione dell'aggiornamento del firmware?
Un: No. Non è necessario riavviare il sistema.


D. Il firmware può essere applicato al nodo passivo?
Un: No. L'aggiornamento deve essere eseguito solo sul nodo attivo.


D. Quanto tempo richiede l'aggiornamento del firmware per le unità da 180 a 240 unità (4 alloggiamenti DS60)?
Un: L'aggiornamento viene eseguito in modalità parallela e in genere viene completato in 10-15 minuti, a condizione che non vi siano problemi.


D. Se alcune unità non vengono aggiornate, il sistema ritenterà automaticamente l'aggiornamento?
Un: No. L'aggiornamento deve essere eseguito di nuovo manualmente o ripetuto per le unità rimanenti. Vedi "Informazioni aggiuntive" per la procedura di aggiornamento manuale.


D. La patch del firmware deve essere applicata anche ai sistemi Data Domain non HA?
Un: Sì. Si consiglia di applicare la patch drive-firmware-CA04.RPM a tutti i sistemi con unità da 8 TB con firmware precedente.


D. Se un'unità si guasta durante l'aggiornamento, può essere ripristinata?
Un:

  • Se il disco mostra la cronologia degli errori (verificare con disk show reliability-data), deve rimanere guasto ed essere sostituito.
  • Se non sono presenti errori, eseguire:
    disk unfail <disk.id>
    
    In questo modo il disco viene contrassegnato come di riserva.
  • Se un'unità sostitutiva dispone di un firmware CA01/CA02 precedente, deve essere aggiornato manualmente. Vedere "Come aggiornare manualmente le unità sostitutive" in Informazioni aggiuntive.

D. Perché è necessario sospendere l'attività nel gruppo di dischi 2 (dg2) anche quando DDFS è disabilitato?
Un: DDOS continua ad accedere ai mount EXT3 in dg2. La sospensione dell'attività di I/O impedisce ulteriori errori durante l'aggiornamento.


D. Come verificare la presenza di dischi dg2/dgXX con array ext3 e che contengono il firmware CA01/CA02.
Un: Per i sistemi non sottoposti a migrazione di storage, dg2 dispone degli array ext3.

Cercare le righe seguenti in autosupport. (in grassetto).

  • DD_RAID Histogram
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All (questo comando può essere eseguito anche sulla CLI DD)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware (questo comando può essere eseguito sulla CLI DD)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

Nell'esempio precedente, le unità hanno il firmware CA01. È necessario aprire una richiesta di assistenza affinché Dell Technologies possa assistere con la sospensione del gruppo di dischi (dg2) contenente l'array ext3 prima dell'applicazione dell'aggiornamento MDU. 

Per i sistemi sottoposti a migrazione dello storage, l'array contenente ext3 potrebbe non essere dg2. Cercare le righe seguenti in AutoSupport (in grassetto).

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • DD_RAID Histogram
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


Poiché le unità non dispongono del firmware CA01 e CA02, non è necessaria una richiesta di assistenza. Andare al passaggio 3 della procedura di aggiornamento MDU nella sezione "Risoluzione" precedente.

Produse afectate

Data Domain, DD9400 Appliance, DD9900 Appliance

Produse

DD OS 7.11
Proprietăți articol
Article Number: 000204252
Article Type: Solution
Ultima modificare: 16 Dec 2025
Version:  20
Găsiți răspunsuri la întrebările dvs. de la alți utilizatori Dell
Servicii de asistență
Verificați dacă dispozitivul dvs. este acoperit de serviciile de asistență.