Data Domain: Flera enheter slutar fungera vid failover av HA-system | Problem med fast programvara CA01 CA02

Sammanfattning: Data Domain High Availability (HA) kan uppleva enhetsfel under HA-failover-funktion på grund av ett känt problem med enhetens fasta programvara. Vissa system kan uppleva att filsystemet inte kan starta efter en redundansväxling eller omstart. ...

Den här artikeln gäller för Den här artikeln gäller inte för Den här artikeln är inte kopplad till någon specifik produkt. Alla produktversioner identifieras inte i den här artikeln.

Symptom

Komponentfelet är begränsat till 8 TB-enheter med CA01- och CA02-versioner av fast programvara. Vanligtvis påverkas flera RAID-grupper (diskgrupper). Den kan vara enkel degraderad (ett fel) eller dubbel degraderad (två diskfel).

System som inte startar om drabbas av avbrott i filsystemet, men bör återställas på egen hand. Flera diskar återskapas pågår och väntar. För system som startas om tvingas en failover fram, vilket kan leda till att filsystemet fastnar under starten.

Gäller för:

  • Endast modeller DD9400 och DD9900
  • 8 TB hårddisk i externa lagringshöljen med fast programvara (fast programvara) version CA01 eller CA02

Symptom på diskfel:

  • Rapport över diskloggar sense key 4/0x29/0xcd när du gör en SCSI WRITE cdb 0x8a, Ett skrivkommandofel orsakar diskfel i DD_RAID-modulen.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • DD_RAID diskar slutar fungera på grund av "WRITE I/O"-fel.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

DDFS kan inte starta symptom:

  • I ddfs.infogäller meddelandena nedan under en längre tid under DDFS-start. Den fortskrider inte förrän DDFS-processen har avslutats och tvingat fram en redundansväxling till peer-noden.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Orsak

Enhetens DRAM-cachebuffert stöter på ett falskt dataintegritetsfel under slumpmässiga I/O-arbetsbelastningar. Detta utlöser diskfel.
Hårddisktillverkaren har tillhandahållit en korrigering av den fasta programvaran för att lösa problemet.

Upplösning

Korrigering:

  • Åtgärdade DDOS-versioner: DDOS 7.11.x, 7.10.1.0 och 7.7.5.1 och senare har inbyggd fast CA04-programvara.
  • En MDU (Minimal Disruptive Upgrade) är tillgänglig för alla andra DDOS 7.x-versioner.
    • Länk till MDU: Läs mig + ladda ner: DDOS 7.X-hårddiskpaket med minimalt störande uppgradering (MDU) – november 2022 (Logga in som registrerad Dell-supportanvändare krävs för att visa dokumentet)
    • Tillämpa MDU-paketet:

      1. Anslut till den aktiva noden i HA-systemet. Uppdateringen fungerar inte från den passiva noden eller väntelägesnoden.
      2. Schemalägg skärmavbrott med användaren eftersom DDFS måste inaktiveras under uppdateringen av den fasta programvaran. Kör följande kommandon för att kontrollera aktuella aviseringar och åtgärda dem efter behov. Stoppa rengöringsprocessen om den är igång. Inaktivera filsystemet. 
                    # alerts show current
              # filesys clean status
              # filesys clean stop
              # filesys disable
      3. Kontrollera autosupport för CA01/CA02-diskar som ingår i >=dg2 för system som inte har genomgått lagringsmigrering. För system som har genomgått lagringsmigrering kan diskgruppen med ext3-disksystem inte vara dg2. 
        Sök efter ext3. Den visar DD_RAID histogram för dgXX där XX är DG-numret. Se exempel i avsnittet "Ytterligare information" nedan. Om dg2/dgXX-diskarna har fast CA01/C02-programvara måste disksystemet tillfälligt avbrytas under MDU-uppgraderingsprocessen. Om du inte gör det kan det utlösa ett nytt fel om all I/O-aktivitet i diskgruppen inte pausas. Öppna ett supportärende om du vill ha hjälp med att pausa diskgruppen. Om dg2/dgXX inte innehåller CA01/CA02-diskar behövs inget supportärende. Gå till steg 4.
      4. Ladda upp drive-firmware-CA04.rpm från användargränssnittet för DD System Manager.
      5. Uppgradera diskarna. Kör följande kommando och vänta tills det är klart. 
                   # system upgrade start drive-firmware-CA04.rpm"
      6. Vänta ~10 minuter.
      7. Kontrollera att alla diskar är uppgraderade. Om diskarna fortfarande visas med den fasta programvaran CA01/CA02 upprepar du steg 5 och 6. 
                   # disk show hardware
      8. Kontrollera det aktuella disktillståndet. Om det finns flera diskfel kontaktar du supporten för att få hjälp. För fel på en disk kontrollerar du om det finns någon felhistorik på disken. Om det inte finns några fel tar du bort disken. 
                  # disk unfail <disk.id>
      9. Verifiera varningar och aktivera DDFS. 
                  # alerts show current
                  # filesys enable
Obs! Filsystemet ska inaktiveras när du tillämpar MDU:n.

Alternativ lösning

  • Om en omstart eller failover-funktion har inträffat:
    • DD_RAID kan inte återställa enheter som inte fungerar.
    • Låt traditionella paritetsbaserade diskåterskapande slutföras.
    • Inaktivera GC tills alla återskapande har slutförts.
    • Om det inte går att starta filsystemet kontaktar du en DDFS TSE.
  • Om omstart eller failover INTE inträffade:
    • DD_RAID TSE kan återställa diskar med fel manuellt med hjälp av dd_raidtool.
    • Trasiga diskplatser måste startas om (kontakta Dells support).
    • Tillåt att mer än 50 % återskapas innan du växlar till återställning efter fel.
    • Efter återskapande kan diskarna "avbrytas" om kortplatserna startades om.

Ytterligare information

Vanliga frågor

F: Kan uppgraderingen av den fasta programvaran utföras när Data Domain-filsystemet är online?
A: Nej. DDFS måste inaktiveras under uppgraderingen av den fasta programvaran.


F: Krävs en omstart av systemet efter att uppdateringen av den fasta programvaran har tillämpats?
A: Nej. En omstart krävs inte.


F: Kan den fasta programvaran tillämpas på den passiva noden?
A: Nej. Uppdateringen får endast utföras på den aktiva noden.


F: Hur lång tid tar uppgraderingen av den fasta programvaran för 180–240 enheter (4 DS60-hyllor)?
A: Uppgraderingen körs parallellt och slutförs vanligtvis inom 10–15 minuter, förutsatt att det inte finns några problem.


F: Om vissa enheter inte har uppdaterats, försöker systemet automatiskt att uppdatera igen?
A: Nej. Uppdateringen måste köras om manuellt eller upprepas för de återstående enheterna. Se "Ytterligare information" för manuella uppdateringssteg.


F: Ska korrigeringsfilen för fast programvara även tillämpas på icke-HA Data Domain-system?
A: Ja. Vi rekommenderar att du installerar korrigeringsfilen device-firmware-CA04.RPM på alla system med 8 TB-enheter som kör äldre fast programvara.


F: Kan en drivenhet återställas om den slutar fungera under uppdateringen?
A:

  • Om disken visar felhistorik (kontrollera med disk show reliability-data) måste den förbli trasig och ersättas.
  • Om det inte finns några fel kör du:
    disk unfail <disk.id>
    
    Detta markerar disken som reserv.
  • Om en ersättningsenhet har en äldre fast CA01/CA02-programvara måste den uppdateras manuellt. Se "Så här uppdaterar du ersättningsenheter manuellt" i Ytterligare information.

F: Varför är det nödvändigt att pausa aktivitet i diskgrupp 2 (dg2) även när DDFS är inaktiverat?
A: DDOS fortsätter att komma åt EXT3-monteringar i dg2. Om du pausar I/O-aktiviteten förhindras ytterligare fel under uppgraderingen.


F: Så här kontrollerar du om det finns dg2/dgXX-diskar som har ext3-disksystem och innehåller fast CA01/CA02-programvara.
A: För icke-lagringsmigrerade system har dg2 ext3-disksystemen.

Sök i autosupporten efter följande rader. (i fet stil)

  • DD_RAID Histogram
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Lagring Show All (Det här kommandot kan även köras på DD CLI)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware (Det här kommandot kan köras på DD CLI)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

I exemplet ovan har diskarna fast programvara CA01. Ett supportärende måste öppnas så att Dell Technologies kan hjälpa till med att pausa diskgruppen (dg2) som innehåller ext3-disksystemet innan MDU-uppgraderingen tillämpas. 

För lagringsmigrerade system kan det hända att disksystemet som innehåller ext3 inte är dg2. Sök i autosupporten efter följande rader. (I fetstil)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • DD_RAID Histogram
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


Eftersom enheterna inte har CA01- och CA02-firmware krävs inget supportärende. Gå till steg 3 av MDU-uppgraderingsstegen i avsnittet "Resolution" ovan.

Berörda produkter

Data Domain, DD9400 Appliance, DD9900 Appliance

Produkter

DD OS 7.11
Artikelegenskaper
Artikelnummer: 000204252
Artikeltyp: Solution
Senast ändrad: 16 dec. 2025
Version:  20
Få svar på dina frågor från andra Dell-användare
Supporttjänster
Kontrollera om din enhet omfattas av supporttjänster.