Data Domain: Při převzetí služeb při selhání systémů HA selže více disků | Problém s firmwarem CA01 CA02
Summary: Při převzetí služeb při selhání vysoké dostupnosti (HA) u služby Data Domain může dojít k selhání disku kvůli známému problému s firmwarem disku. U některých systémů může po převzetí služeb při selhání nebo restartování dojít ke znemožnění spuštění systému souborů. ...
Symptoms
Selhání komponenty se týká 8TB disků s verzemi firmwaru CA01 a CA02. Obvykle se problém týká více skupin RAID (skupin disků). Může mít jednoduchý snížený výkon (jedno selhání) nebo dvojitý (selhání dvou disků).
U systémů, které se nerestartují, dojde k přerušení systému souborů, ale měly by se obnovit samy. Probíhá a čeká se na opětovné vytvoření několika disků. U systémů, které se restartují, je vynuceno převzetí služeb při selhání, což může způsobit zamrznutí systému souborů během spouštění.
Platí pro:
- Pouze modely DD9400 a DD9900
- 8TB pevný disk v externích úložných skříních s firmwarem (FW) verze CA01 nebo CA02
Příznaky selhání disku:
- Sestava protokolů disků
sense key 4/0x29/0xcdpři provádění operace SCSI WRITEcdb 0x8a,Jedna chyba zápisu způsobí selhání disku modulem DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- Pole DD_RAID přepne disky do stavu selhání kvůli chybám „WRITE I/O“.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
Příznaky, kdy nelze spustit systém DDFS:
- In
ddfs.info, níže uvedené zprávy platí po dlouhou dobu během spouštění systému DDFS. Proces nepokračuje, dokud není ukončen proces DDFS a vynuceno převzetí služeb při selhání partnerským uzlem.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====
09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrubCause
Resolution
Oprava:
- Opravené verze DDOS: Systémy DDOS 7.11.x, 7.10.1.0, 7.7.5.1 a novější mají vestavěný firmware CA04.
- Upgrade na novější verzi systému DDOS
- Pro všechny ostatní verze systému DDOS 7.x je k dispozici upgrade s minimálním rušením (MDU).
- Odkaz na nástroj MDU: Přečtěte si mě + Stáhnout: Balíček upgradu firmwaru pevného disku DDOS 7.X Minimally Disruptive Upgrade (MDU) – listopad 2022 (k zobrazení dokumentu je vyžadováno přihlášení jako registrovaný uživatel podpory Dell)
-
Použití balíčku s minimálním rušením:
- Připojte se k aktivnímu uzlu systému HA. Aktualizace nefunguje z pasivního nebo pohotovostního uzlu.
- Naplánujte s uživatelem odstávku, protože během aktualizace firmwaru musí být služba DDFS zakázána. Spuštěním následujících příkazů zkontrolujte aktuální výstrahy a podle potřeby je vyřešte. Zastavte proces mazání dat, pokud je spuštěný. Zakažte systém souborů.
# alerts show current# filesys clean status# filesys clean stop# filesys disable - Zkontrolujte automatickou podporu pro disky CA01/CA02, které jsou součástí skupiny >=dg2 u systémů, které neprošly migrací úložiště. U systémů, které prošly migrací úložiště, nemusí být dg2 skupinou disků s poli ext3.
Vyhledejte pole ext3. Zobrazuje DD_RAID histogram pro dgXX, kde XX je číslo DG. Viz část „Další informace“ níže. Pokud mají disky dg2/dgXX firmware CA01/C02, musí být pole během procesu upgradu MDU dočasně pozastaveno. Pokud tak neučiníte, může dojít k dalšímu selhání, pokud nejsou pozastaveny všechny aktivity I/O ve skupině disků. Otevřete případ podpory a požádejte o pomoc s pozastavením skupiny disků. Pokud skupina disků dg2/dgXX neobsahuje disky CA01/CA02, případ podpory není nutný. Přejděte ke kroku 4. - Nahrajte soubor
drive-firmware-CA04.rpmv rozhraní nástroje DD System Manager. - Upgradujte disky. Spusťte následující příkaz a počkejte na dokončení.
# system upgrade start drive-firmware-CA04.rpm" - Počkejte zhruba 10 minut.
- Zkontrolujte, zda jsou upgradovány všechny disky. Pokud se disky stále zobrazují s firmwarem CA01/CA02, opakujte kroky 5 a 6.
# disk show hardware - Zkontrolujte aktuální stav disku. Pokud selže více disků, požádejte o pomoc podporu. V případě selhání jednoho disku zkontrolujte, zda disk neobsahuje historii chyb. Pokud žádné chyby nejsou, přepněte disk ze stavu selhání.
# disk unfail <disk.id> - Ověřte výstrahy a povolte systém DDFS.
# alerts show current# filesys enable
Zástupné řešení
- Pokud došlo k restartování nebo převzetí služeb při selhání:
- DD_RAID nemůže navrátit vadné disky.
- Počkejte na dokončení tradičních přebudování disků na základě parity.
- Zakažte uvolňování paměti, dokud se nedokončí všechna přestavění.
- Pokud se systém souborů nespustí, obraťte se na DDFS TSE.
- Pokud k restartování nebo převzetí služeb při selhání NEDOŠLO:
- DD_RAID TSE může navrátit služby po obnovení ručně pomocí
dd_raidtool. - Vadné diskové sloty je nutné vypnout a zapnout (kontaktujte podporu společnosti Dell).
- Před přepnutím na rekonstrukci navrácení služeb po obnovení povolte dokončení přebudování nad 50 %.
- Po opětovném vytvoření mohou být disky "nefunkční", pokud byly sloty restartovány.
- DD_RAID TSE může navrátit služby po obnovení ručně pomocí
Additional Information
Nejčastější dotazy
Dotaz: Lze provést upgrade firmwaru, když je systém souborů Data Domain online?
A: Ne. Služba DDFS musí být během upgradu firmwaru zakázána .
Dotaz: Je po použití aktualizace firmwaru nutné restartovat systém?
A: Ne. Restart není nutný.
Dotaz: Lze firmware použít na pasivní uzel?
A: Ne. Aktualizace musí být provedena pouze na aktivním uzlu.
Dotaz: Jak dlouho trvá upgrade firmwaru pro 180–240 jednotek (4 police DS60)?
A: Upgrade běží v paralelním režimu a obvykle se dokončí za 10–15 minut, pokud nenastanou žádné problémy.
Dotaz: Pokud některé jednotky nebudou aktualizovány, systém automaticky zopakuje aktualizaci?
A: Ne. Aktualizaci je nutné spustit ručně nebo zopakovat pro zbývající disky. Postup ruční aktualizace naleznete v části "Další informace".
Dotaz: Měla by se oprava firmwaru použít i na systémy Data Domain bez HA?
A: Ano. Opravu drive-firmware-CA04.RPM doporučujeme aplikovat na všechny systémy s 8TB disky se starším firmwarem.
Dotaz: Pokud během aktualizace selže disk, lze jej obnovit?
A:
- Pokud disk zobrazuje historii chyb (zkontrolujte pomocí
disk show reliability-data), musí zůstat vadný a musí být nahrazen. - Pokud nejsou k dispozici žádné chyby, spusťte:
Tím označíte disk jako náhradní.disk unfail <disk.id> - Pokud má náhradní disk starší firmware CA01/CA02, je nutné jej aktualizovat ručně. Viz "Jak ručně aktualizovat náhradní disky" v části Další informace.
Dotaz: Proč je nutné pozastavit aktivitu ve skupině disků 2 (dg2), i když je služba DDFS zakázána?
A: Systém DDOS nadále přistupuje k montážím EXT3 v adresáři dg2. Pozastavením aktivity I/O zabráníte dalším selháním během upgradu.
Dotaz: Jak zkontrolovat disky dg2/dgXX, které mají pole ext3 a obsahují firmware CA01/CA02.
A: U systémů nemigrovaných do úložiště má dg2 pole ext3.
Vyhledejte v autosupport následující řádky. (tučně)
- Histogram DD_RAID
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All (tento příkaz lze spustit také v rozhraní příkazového řádku DD)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB
2.37-2.39, 2.49-2.50
- Disk Show Hardware (tento příkaz lze spustit v rozhraní příkazového řádku DD)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919
2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919
2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919
2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919
2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919
2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919
2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919
2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919
2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919
2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919
2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919
2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919
2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919
2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919
2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
Ve výše uvedeném příkladu mají disky firmware CA01. Aby mohla společnost Dell Technologies pomoci s pozastavením skupiny disků (DG2) obsahující pole ext3 před použitím upgradu MDU, je nutné otevřít případ podpory.
U systémů migrovaných do úložiště nemusí ext3 obsahovat pole dg2. V automatické podpoře vyhledejte následující řádky. (Tučně)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
## Feature Shelf Model Capacity Type State Expiration Date Note
-- --------------- ------------ ----------- --------- ------ --------------- ----
1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a
-- --------------- ------------ ----------- --------- ------ --------------- ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
## Feature Count Type State Expiration Date Note
-- ---------------------------------------- ----- ---------- ------ --------------- ---------------
1 REPLICATION 1 permanent active n/a
2 VTL 1 permanent active n/a
3 DDBOOST 1 permanent active n/a
4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a
5 ENCRYPTION 1 permanent active n/a
6 I/OS 1 permanent active n/a
7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a
8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20
-- ---------------------------------------- ----- ---------- ------ --------------- ---------------
License file last modified at : 2022/08/29 11:02:13.
- Histogram DD_RAID
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB
6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785
6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785
6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785
6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785
6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785
6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785
6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785
6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785
6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785
6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785
6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785
6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785
6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785
6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785
6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
Vzhledem k tomu, že jednotky nemají firmware CA01 a CA02, není vyžadován případ podpory. Přejděte ke kroku 3 postupu upgradu s minimálním rušením v části „Řešení“.