Data Domain: Flere drev svigter under failover af HA-systemer | CA01 CA02 FW-problem

Summary: Data Domain High Availability (HA) kan opleve drevfejl under HA-failover på grund af et kendt firmwareproblem på drevet. Nogle systemer kan opleve filsystemets manglende evne til at starte efter en failover eller genstart. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Komponentfejlen er begrænset til 8 TB drev med CA01- og CA02-firmwarerevisioner. Normalt påvirkes flere RAID-grupper (diskgrupper). Det kan være enkelt forringet (en fejl) eller dobbelt forringet (to diskfejl).

De systemer, der ikke genstarter, støder på filsystemafbrydelse, men bør genoprette sig selv; med flere diskgenopbygninger i gang og afventer. For systemer, der genstarter, tvinges en failover, hvilket kan medføre, at filsystemet sidder fast under opstart.

Gælder for:

  • Kun modellerne DD9400 og DD9900
  • 8 TB harddisk i eksterne storagekabinetter med firmwareversion CA01 eller CA02 (FW)

Rettelse:


Bemærk: Filsystemet skal deaktiveres, når MDU'en anvendes.


Symptomer på diskfejl:

  • Disklogfiler rapporterer registreringsnøgle 4/0x29/0xcd når du laver en SCSI WRITE cdb 0x8a, forårsager en skrivekommandofejl diskfejl i DD_RAID-modulet.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • DD_RAID diskfejl pga. "WRITE I/O"-fejl.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

DDFS kan ikke starte symptomer:

  • I ddfs.info er nedenstående meddelelser for en længere periode under DDFS-start. Den skrider ikke frem, før DDFS-processen afsluttes, hvilket tvinger en failover til peer-noden.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Cause

Hovedårsagen til diskfejltilstanden:
Drevets DRAM-cachebuffer støder på en falsk dataintegritetsfejl under en tilfældig I/O-arbejdsbelastning. Producenten af drevet har leveret en firmwarerettelse for at løse dette problem.

Resolution

Løsning

Hvis der er sket en genstart eller failover, vil muligheden for DD_RAID til "failback" De defekte drev er ikke en mulighed. I dette tilfælde skal du tillade traditionelle diskgendannelse (paritet) at fuldføre. Deaktiver GC, indtil alle diskgendannelse er fuldført. Hvis filsystemet har problemer med at starte op efter en genstart eller en failover, skal du konsultere en DDFS TSE, før du afslutter DDFS-processen.

Hvis en genstart eller failover ikke har fundet sted, kan DD_RAID "failback" genopbygning af de defekte diske. Dette er en manuel betjening ved hjælp af "dd_raidtool" i bash. Før diskens "failback" påbegyndes, skal de defekte diskpladser tændes. Kontakt Dells tekniske support for at få dette gjort.

Baseret på praktisk erfaring kan du tillade, at diskgenopbygninger udføres over 50 % i stedet for at skifte til failback-rekonstruktion.

Når alle genopbygninger er fuldført, kan drev, der stadig er mislykkede, være "unfailed" hvis deres respektive slots er blevet tændt og tændt. 


Rettelse

Diskfirmwareversion CA04 er nu tilgængelig som en MDU-programrettelse i form af en DDOS-opgraderingspakke. Kontakt support for at få en kopi af RPM. Det er beliggende i /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.


Ofte stillede spørgsmål: 

  1. Kan opgraderingen udføres med et Data Domain-filsystem online?
    Nej, DDFS skal være offline|deaktiveret under FW-opgraderingen.
  2. Er en genstart påkrævet?
    Nej, en genstart er ikke påkrævet.
  3. Kan FW anvendes på den passive node?
    Nej, det kan ikke anvendes på den passive node. Den må kun køres på den aktive node.
  4. Hvor lang tid tager det at fuldføre opgraderingen af FW-drevets firmware-CA04.RPM til 180-240(4-DS60)-drev?
    Opgraderingen er i parallel tilstand. Det tager 10-15 minutter, hvis der ikke er nogen problemer.
  5. Hvis ikke alle drev opdateres, opdaterer systemet så automatisk ikke-CA04-drev?
    Nej, opdateringen skal køres igen eller kan udføres manuelt. Se "Yderligere oplysninger" nedenfor.
  6. Skal de anvende dette FW-drev-firmware-CA04? RPM-patch på andre NON-HA DD'er også, da disse også kan have drev på ældre FW?
    Det anbefales også at anvende FW-drevets firmware-CA04.RPM på ikke-HA DD'er med 8 TB-drevene.
  7. Hvis et drev svigter under opdateringen, kan det så ikke mislykkes?
    Hvis der opstår fejl på et drev før eller under firmwareopdateringen, skal du kontrollere disken for fejlhistorik (f.eks. "disk show reliability-data"). Hvis disken har fejl, skal den forblive mislykket og skal udskiftes. Hvis disken ikke har nogen fejl, skal du køre kommandoen "disk unfail <disk.id>" for at fjerne fejlen på drevet og gøre det til en reserve. Hvis et defekt drev udskiftes med et drev med den ældre CA01/CA02-drevfirmware, skal drevet opdateres manuelt. Se nedenfor "Sådan opdateres udskiftningsdrev manuelt" i det ekstra afsnit nedenfor.
  8. Hvorfor er det nødvendigt at afbryde aktiviteten i diskgruppe 2 (dg2), selv når DDFS er nede?
    DDOS har fortsat adgang til de EXT3-beslag, der findes i dg2.


Anvendelse af MDU-pakken:

  1. Opret forbindelse til den aktive node i HA-systemet. Opdateringen fungerer ikke fra den passive node eller standbynoden.
  2. Planlæg nedetid med brugeren, da DDFS skal deaktiveres under FW-opdateringen. Kør følgende kommandoer for at kontrollere aktuelle advarsler og adressere dem efter behov. Stop rengøringsprocessen, hvis den kører. Deaktiver filsystemet. 
                # alerts show current
          # filesys clean status
          # filesys clean stop
          # filesys disable
  3. Kontroller autounderstøttelsen af CA01/CA02-diske, der er en del af >=dg2 for systemer, der ikke har gennemgået en lagermigrering. For systemer, der har gennemgået en storagemigrering, er diskgruppen med ext3-arrays muligvis ikke dg2. 
    Søg efter ext3. Det viser DD_RAID histogram for dgXX, hvor XX er DG-nummeret. Se eksemplet i afsnittet "Yderligere oplysninger" nedenfor. Hvis dg2/dgXX-diske har CA01/C02-firmware, skal systemet midlertidigt afbrydes under MDU-opgraderingsprocessen. Hvis du ikke gør det, kan det udløse endnu en fejl, hvis al I/O-aktivitet i diskgruppen ikke afbrydes. Åbn en supportsag for at få hjælp til at stoppe diskgruppen midlertidigt. Hvis dg2/dgXX ikke indeholder CA01/CA02-diske, er en supportsag ikke nødvendig. Gå til trin 4.
  4. Upload drive-firmware-CA04.rpm fra brugergrænsefladen i DD System Manager.
  5. Opgrader diskene. Kør følgende kommando, og vent på, at den er færdig. 
               # system upgrade start drive-firmware-CA04.rpm"
  6. Vent ~ 10 minutter.
  7. Kontroller, at alle diske er opgraderet. Hvis diskene stadig vises med CA01/CA02-firmware, skal du gentage trin 5 og 6. 
               # disk show hardware
  8. Kontroller den aktuelle disktilstand. Hvis der er flere diskfejl, skal du kontakte support for at få hjælp. Ved fejl på en enkelt disk skal du kontrollere, om der er fejlhistorik, og hvis der ikke er nogen fejl, skal du fjerne diskfejlen. 
              # disk unfail <disk.id>
  9. Bekræft advarsler, og aktivér DDFS. 
              # alerts show current
              # filesys enable

Additional Information

Sådan kontrollerer du, om der er dg2/dgXX-diske, som har ext3-system og indeholder CA01/CA02-firmware.
For ikke-storagemigrerede systemer har dg2 ext3-systemerne.

Søg i autosupport efter følgende linjer. (Med fed skrift)

  • DD_RAID Histogram
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All (Denne kommando kan også køres på DD CLI)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware (Denne kommando kan køres på DD CLI)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

 

I eksemplet ovenfor har drevene CA01-firmware. Der skal åbnes en supportsag, så Dell Technologies kan hjælpe med at suspendere diskgruppen (dg2), der indeholder ext3-systemet, før MDU-opgraderingen tages i brug. 

For storagemigrerede systemer er systemet, der indeholder ext3, muligvis ikke dg2. Søg i autosupport efter følgende linjer. (Med fed skrift)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • DD_RAID Histogram
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


Da drevene ikke har CA01- og CA02-firmware, er en supportsag ikke påkrævet. Gå til trin 3 i MDU-opgraderingstrinnene i afsnittet "Løsning" ovenfor.

Affected Products

Data Domain, DD9400 Appliance, DD9900 Appliance

Products

DD OS 7.11
Article Properties
Article Number: 000204252
Article Type: Solution
Last Modified: 30 Oct 2025
Version:  19
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.