Data Domain: Flere stasjoner svikter under failover av HA-systemer | Problem med fastvare for CA01 CA02

Summary: Data Domain med høy tilgjengelighet (HA) kan oppleve diskfeil under HA-failover på grunn av et kjent problem med diskfastvaren. Noen systemer kan oppleve at filsystemet ikke kan starte opp etter en failover eller omstart. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Komponentfeilen er begrenset til 8 TB-disker med CA01- og CA02-fastvarerevisjoner. Vanligvis påvirkes flere RAID-grupper (diskgrupper). Det kan være enkelt degradert (en feil) eller dobbel degradert (to diskfeil).

Systemene som ikke starter opp på nytt, støter på filsystemavbrudd, men skal gjenopprette på egen hånd; med flere diskgjenoppbygginger pågående og ventende. For systemer som starter på nytt, er det nødvendig med en failover, som kan føre til at filsystemet blir sittende fast under oppstart.

Gjelder:

  • Kun DD9400- og DD9900-modeller
  • 8 TB harddisk i eksterne lagringskabinetter med fastvareversjon CA01 eller CA02

Reparasjon:


Merk: Filsystemet skal være deaktivert når du bruker MDU.


Symptomer på diskfeil:

  • Disk logger report sense key 4/0x29/0xcd når du gjør en SCSI WRITE cdb 0x8a, forårsaker en skrivekommandofeil diskfeil av DD_RAID-modulen.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • DD_RAID mislykkes på disker på grunn av "WRITE I/O"-feil.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

DDFS Unable to Startup Symptoms:

  • I ddfs.info er meldingene nedenfor i lang tid under oppstart av DDFS. Den fortsetter ikke før DDFS-prosessen avsluttes, noe som tvinger en failover til node.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Cause

Hovedårsaken til diskfeiltilstanden:
Det oppstår en falsk dataintegritetsfeil under en tilfeldig I/O-workload. Stasjonsprodusenten har levert en fastvarereparasjon for å løse dette problemet.

Resolution

Omgåelse av problemet

Hvis en omstart eller failover har oppstått, kan evnen til DD_RAID til "failback" De mislykkede stasjonene er ikke et alternativ. I dette tilfellet må du la tradisjonelle diskgjenoppbygginger (paritet) fullføres. Deaktiver GC til alle diskgjenoppbygginger er fullført. Hvis filsystemet har problemer med å starte opp etter en omstart eller failover, bør du kontakte DDFS TSE før du avslutter DDFS-prosessen.

Hvis en omstart eller failover ikke har skjedd, kan DD_RAID "failback" gjenoppbygging av de mislykkede diskene. Dette er en manuell operasjon som bruker "dd_raidtool" i bash. Før du starter "failback" for disken, må du slå disksporene dine av og på. Kontakt Dells tekniske kundestøtte for å få dette gjort.

Basert på praktisk erfaring kan du tillate diskgjenoppbygging over 50 % å fullføre, i stedet for å bytte til failback-rekonstruksjon.

Når alle gjenoppbygginger er fullført, kan stasjoner som fortsatt mislyktes, være "unfailed" hvis deres respektive spor har blitt strømsyklet. 


Løsning

Diskfastvareversjon CA04 er nå tilgjengelig som en MDU-oppdatering i form av en DDOS-oppgraderingspakke. Kontakt kundestøtte for en kopi av RPM. Det ligger i /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.


Vanlige spørsmål: 

  1. Kan oppgraderingen gjøres med et Data Domain-filsystem på nettet?
    Nei, DDFS må være frakoblet|deaktivert under fastvareoppgraderingen.
  2. Er en omstart nødvendig?
    Nei, en omstart er ikke nødvendig.
  3. Kan fastvaren brukes på den passive noden?
    Nei, den kan ikke brukes på den passive noden. Den må bare kjøres på den aktive noden.
  4. Hvor lang tid tar det å fullføre oppgraderingen av fastvare-CA04.RPM for fastvareinstallasjonen for 180-240 (4-DS60)-disker?
    Oppgraderingen er i parallell modus, det tar 10 - 15 minutter hvis det ikke er noen problemer.
  5. Hvis ikke alle diskene er oppdatert, oppdaterer systemet automatisk de ikke-CA04-diskene?
    Nei, oppdateringen må kjøres på nytt eller kan gjøres manuelt. Se "Tilleggsinformasjon" nedenfor.
  6. Må de bruke denne fastvaren for fastvare-CA04? RPM på andre ikke-HA DDs også siden de kan ha stasjonene på eldre fastvare også?
    Det anbefales også å bruke fastvareversjon for fastvareversjon for fastvareversjon CA04.RPM på ikke-HA DD-er med 8 TB-disker.
  7. Hvis en stasjon svikter under oppdateringen, kan den mislykkes?
    Hvis en stasjon svikter før eller under fastvareoppdateringen, ser du etter feilhistorikk på disken (for eksempel "disk show reliability-data"). Hvis disken har noen feil, må den forbli sviktet og må byttes ut. Hvis disken ikke har noen feil, kjører du kommandoen "disk unfail <disk.id>" for å oppheve feilen og gjøre den til en reserve. Hvis en skadet stasjon erstattes med en stasjon med den eldre CA01-/CA02-diskfastvaren, må disken oppdateres manuelt. Se «Slik oppdaterer du erstatningsdisker manuelt» nedenfor i tilleggsdelen nedenfor.
  8. Hvorfor er det nødvendig å avbryte aktiviteten i diskgruppe 2 (dg2), selv når DDFS er nede?
    DDOS har fortsatt tilgang til EXT3-monteringene som finnes i dg2.


Bruke MDU-pakken:

  1. Koble til den aktive noden til HA-systemet. Oppdateringen fungerer ikke fra den passive noden eller ventemodusnoden.
  2. Planlegg nedetid med brukeren, siden DDFS må deaktiveres under fastvareoppdateringen. Kjør følgende kommandoer for å kontrollere gjeldende varsler og adressere dem etter behov. Stopp rengjøringsprosessen hvis den kjører. Deaktiver filsystemet. 
                # alerts show current
          # filesys clean status
          # filesys clean stop
          # filesys disable
  3. Kontroller autosupport for CA01-/CA02-disker som er en del av >=dg2 for systemer som ikke ble overført til lagring. For systemer som har gjennomgått lagringsmigrering, kan det hende at diskgruppen med ext3-arrayer ikke er dg2. 
    Søk etter ext3. Det viser DD_RAID histogram for dgXX der XX er DG-nummeret. Se eksempel i delen "Tilleggsinformasjon" nedenfor. Hvis dg2-/dgXX-diskene har CA01/C02-fastvare, må arrayet deaktiveres midlertidig under MDU-oppgraderingen. Hvis du ikke gjør dette, kan det føre til en ny feil hvis all I/O-aktivitet i diskgruppen ikke avbrytes. Åpne en kundestøttesak for å få hjelp med å utsette diskgruppen. Hvis dg2/dgXX ikke inneholder CA01-/CA02-disker, er det ikke nødvendig med en kundestøttesak. Gå til trinn 4.
  4. Last opp drive-firmware-CA04.rpm fra brukergrensesnittet til DD System Manager.
  5. Oppgrader diskene. Kjør følgende kommando og vent til den er ferdig. 
               # system upgrade start drive-firmware-CA04.rpm"
  6. Vent ~10 minutter.
  7. Kontroller at alle diskene er oppgradert. Hvis disker fremdeles vises med CA01-/CA02-fastvare, gjentar du trinn 5 og 6. 
               # disk show hardware
  8. Kontroller gjeldende disktilstand. Hvis det er flere diskfeil, kontakter du kundestøtte for å få hjelp. For feil på enkeltdisker kontrollerer du om disken har feilhistorikk. Hvis det ikke er noen feil, fjerner du feilen på disken. 
              # disk unfail <disk.id>
  9. Verifisere varsler og aktivere DDFS. 
              # alerts show current
              # filesys enable

Additional Information

Slik ser du etter dg2-/dgXX-disker som har ext3-array og inneholder CA01-/CA02-fastvare.
For systemer som ikke er migrert til lagring, har dg2 ext3-matrisene.

Søk etter følgende linjer i autosupport. (I fet skrift)

  • DD_RAID Histogram
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All (Denne kommandoen kan også kjøres på DD CLI)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware (Denne kommandoen kan kjøres på DD CLI)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

 

I eksemplet ovenfor har diskene CA01-fastvare. En kundestøttesak må åpnes slik at Dell Technologies kan hjelpe til med å utsette diskgruppe (dg2) som inneholder ext3-arrayet, før MDU-oppgraderingen tas i bruk. 

Det kan hende at arrayet som inneholder ext3 ikke er dg2 for lagringsmigrerte systemer. Søk etter følgende linjer i autosupport. (I fet skrift)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • DD_RAID Histogram
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


Siden diskene ikke har CA01- og CA02-fastvare, er det ikke nødvendig med et kundestøttetilfelle. Gå til trinn 3 av MDU-oppgraderingstrinnene i delen "Løsning" ovenfor.

Affected Products

Data Domain, DD9400 Appliance, DD9900 Appliance

Products

DD OS 7.11
Article Properties
Article Number: 000204252
Article Type: Solution
Last Modified: 30 Oct 2025
Version:  19
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.