Data Domain: Při převzetí služeb při selhání systémů HA selže více disků | Problém s firmwarem CA01 CA02

Summary: Při převzetí služeb při selhání vysoké dostupnosti (HA) u služby Data Domain může dojít k selhání disku kvůli známému problému s firmwarem disku. U některých systémů může po převzetí služeb při selhání nebo restartování dojít ke znemožnění spuštění systému souborů. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Selhání komponenty se týká 8TB disků s verzemi firmwaru CA01 a CA02. Obvykle se problém týká více skupin RAID (skupin disků). Může se jednat o jednoduché snížení výkonu (jedno selhání) nebo dvojité snížení výkonu (dvě selhání disku).

Systémy, které se nerestartují, se setkávají s přerušením systému souborů, ale měly by se samy zotavit; přičemž probíhá a čeká se na obnovení více disků. U systémů, které se restartují, je vynuceno převzetí služeb při selhání, což může způsobit zamrznutí systému souborů během spouštění.

Platí pro:

  • Pouze modely DD9400 a DD9900
  • 8TB pevný disk v externích úložných skříních s firmwarem (FW) verze CA01 nebo CA02

Oprava:


Poznámka: Při použití upgradu s minimálním rušením je nutné systém souborů zakázat.


Příznaky selhání disku:

  • Protokoly disku hlásí klíč zjišťování 4/0x29/0xcd při provádění operace SCSI WRITE cdb 0x8a, jedna chyba příkazu zápisu způsobí selhání disku modulem DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • Pole DD_RAID přepne disky do stavu selhání kvůli chybám „WRITE I/O“.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

Příznaky, kdy nelze spustit systém DDFS:

  • V souboru ddfs.info se během spouštění systému DDFS dlouho zobrazují níže uvedené zprávy. Proces nepokračuje, dokud není ukončen proces DDFS a vynuceno převzetí služeb při selhání partnerským uzlem.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Cause

Hlavní příčina selhání disku:
Ve vyrovnávací paměti DRAM cache disku dochází při náhodném zatížení I/O k falešné chybě integrity dat. Výrobce disku poskytl opravu firmwaru, která tento problém řeší.

Resolution

Zástupné řešení

Pokud došlo k restartování nebo převzetí služeb při selhání, možnost pole DD_RAID „failback“ vadné disky nepřichází v úvahu. V takovém případě nechte dokončit tradiční obnovení disku (paritu). Zakažte Garbage Collection, dokud se nedokončí všechna opětovná sestavení disku. Pokud dojde k potížím se spuštěním systému souborů po restartování nebo převzetí služeb při selhání, obraťte se před ukončením procesu DDFS na oddělení DDFS TSE.

Pokud k restartování nebo převzetí služeb při selhání nedošlo, pole DD_RAID může „failback“ opětovné sestavení vadných disků. Jedná se o ruční operaci pomocí příkazu „dd_raidtool“ v terminálu bash. Před zahájením navrácení služeb po obnovení je nutné vadné diskové sloty vypnout a zapnout. Kontaktujte technickou podporu společnosti Dell a požádejte ji o pomoc.

Na základě praktických zkušeností umožněte dokončení obnovy disku nad 50 % a nepřepínejte na rekonstrukci navrácení služeb po obnovení.

Po dokončení všech opětovných sestavení mohou být disky, které jsou stále vadné, „unfailed“, pokud byly jejich příslušné sloty vypnuty a zapnuty. 


Oprava

Firmware disku verze CA04 je nyní k dispozici jako oprava MDU ve formě balíčku upgradu DDOS. Obraťte se na podporu a vyžádejte si kopii RPM. Nachází se v /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.


Nejčastější dotazy: 

  1. Lze upgrade provést online pomocí systému souborů Data Domain?
    Ne, systém souborů DDFS musí být během upgradu firmwaru offline/zakázán.
  2. Je nutné restartovat počítač?
    Ne, restart není nutný.
  3. Lze firmware použít na pasivní uzel?
    Ne, nelze jej použít na pasivním uzlu. Je nutné jej spustit pouze na aktivním uzlu.
  4. Jak dlouho trvá dokončení upgradu firmwaru CA04.RPM pro disky 180-240(4-DS60)?
    Upgrade probíhá v paralelním režimu a pokud nedojde k žádným problémům, trvá 10–15 minut.
  5. Pokud nejsou aktualizovány všechny jednotky, aktualizuje systém automaticky i disky bez CA04?
    Ne, aktualizaci je nutné spustit znovu nebo ji lze provést ručně. Viz „Další informace“ níže.
  6. Je nutné použít opravu FW drive-firmware-CA04.RPM firmwaru i u jiných systémů DD bez HA, protože ty mohou také mít starší firmware?
    Doporučuje se použít firmware FW drive-firmware-CA04.RPM také u systémů DD bez HA s 8TB disky.
  7. Pokud během aktualizace dojde k selhání disku, lze jej vrátit zpět?
    Pokud disk selže před aktualizací firmwaru nebo během ní, zkontrolujte, zda disk neobsahuje historii chyb (například "disk show reliability-data"). Pokud disk vykazuje nějaké chyby, musí zůstat ve stavu selhání a je nutné jej vyměnit. Pokud disk neobsahuje žádné chyby, spusťte příkaz „disk unfail <disk.id>“, čímž disk přepnete ze stavu selhání a vytvoříte z něj náhradní disk. Pokud je vadný disk nahrazen diskem se starším firmwarem CA01/CA02, je nutné disk aktualizovat ručně. Viz část „Jak ručně aktualizovat náhradní disky“ v další části níže.
  8. Proč je nutné pozastavit aktivitu ve skupině disků 2 (DG2), i když je služba DDFS mimo provoz?
    Systém DDOS bude mít i nadále přístup k přípojkám EXT3, které existují ve skupině DG2.


Použití balíčku s minimálním rušením:

  1. Připojte se k aktivnímu uzlu systému HA. Aktualizace nefunguje z pasivního nebo pohotovostního uzlu.
  2. Naplánujte s uživatelem odstávku, protože během aktualizace firmwaru musí být služba DDFS zakázána. Spuštěním následujících příkazů zkontrolujte aktuální výstrahy a podle potřeby je vyřešte. Zastavte proces mazání dat, pokud je spuštěný. Zakažte systém souborů. 
                # alerts show current
          # filesys clean status
          # filesys clean stop
          # filesys disable
  3. Zkontrolujte automatickou podporu pro disky CA01/CA02, které jsou součástí skupiny >=dg2 u systémů, které neprošly migrací úložiště. U systémů, které prošly migrací úložiště, nemusí být dg2 skupinou disků s poli ext3. 
    Vyhledejte pole ext3. Zobrazuje DD_RAID histogram pro dgXX, kde XX je číslo DG. Viz část „Další informace“ níže. Pokud mají disky dg2/dgXX firmware CA01/C02, musí být pole během procesu upgradu MDU dočasně pozastaveno. Pokud tak neučiníte, může dojít k dalšímu selhání, pokud nejsou pozastaveny všechny aktivity I/O ve skupině disků. Otevřete případ podpory a požádejte o pomoc s pozastavením skupiny disků. Pokud skupina disků dg2/dgXX neobsahuje disky CA01/CA02, případ podpory není nutný. Přejděte ke kroku 4.
  4. Nahrajte soubor drive-firmware-CA04.rpm v rozhraní nástroje DD System Manager.
  5. Upgradujte disky. Spusťte následující příkaz a počkejte na dokončení. 
               # system upgrade start drive-firmware-CA04.rpm"
  6. Počkejte zhruba 10 minut.
  7. Zkontrolujte, zda jsou upgradovány všechny disky. Pokud se disky stále zobrazují s firmwarem CA01/CA02, opakujte kroky 5 a 6. 
               # disk show hardware
  8. Zkontrolujte aktuální stav disku. Pokud selže více disků, požádejte o pomoc podporu. V případě selhání jednoho disku zkontrolujte, zda disk neobsahuje historii chyb. Pokud žádné chyby nejsou, přepněte disk ze stavu selhání. 
              # disk unfail <disk.id>
  9. Ověřte výstrahy a povolte systém DDFS. 
              # alerts show current
              # filesys enable

Additional Information

Jak zkontrolovat disky dg2/dgXX, které mají pole ext3 a obsahují firmware CA01/CA02.
U systémů, které nebyly migrovány do úložiště, má disk dg2 pole ext3.

Vyhledejte v automatické podpoře následující řádky. (tučně)

  • Histogram DD_RAID
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All (tento příkaz lze spustit také v rozhraní příkazového řádku DD)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware (tento příkaz lze spustit v rozhraní příkazového řádku DD)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

 

Ve výše uvedeném příkladu mají disky firmware CA01. Aby mohla společnost Dell Technologies pomoci s pozastavením skupiny disků (DG2) obsahující pole ext3 před použitím upgradu MDU, je nutné otevřít případ podpory. 

U systémů migrovaných do úložiště nemusí ext3 obsahovat pole dg2. V automatické podpoře vyhledejte následující řádky. (Tučně)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • Histogram DD_RAID
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


Vzhledem k tomu, že jednotky nemají firmware CA01 a CA02, není vyžadován případ podpory. Přejděte ke kroku 3 postupu upgradu s minimálním rušením v části „Řešení“.

Affected Products

Data Domain, DD9400 Appliance, DD9900 Appliance

Products

DD OS 7.11
Article Properties
Article Number: 000204252
Article Type: Solution
Last Modified: 30 Oct 2025
Version:  19
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.