Data Domain: Při převzetí služeb při selhání systémů HA selže více disků | Problém s firmwarem CA01 CA02
Summary: Při převzetí služeb při selhání vysoké dostupnosti (HA) u služby Data Domain může dojít k selhání disku kvůli známému problému s firmwarem disku. U některých systémů může po převzetí služeb při selhání nebo restartování dojít ke znemožnění spuštění systému souborů. ...
Symptoms
Selhání komponenty se týká 8TB disků s verzemi firmwaru CA01 a CA02. Obvykle se problém týká více skupin RAID (skupin disků). Může se jednat o jednoduché snížení výkonu (jedno selhání) nebo dvojité snížení výkonu (dvě selhání disku).
Systémy, které se nerestartují, se setkávají s přerušením systému souborů, ale měly by se samy zotavit; přičemž probíhá a čeká se na obnovení více disků. U systémů, které se restartují, je vynuceno převzetí služeb při selhání, což může způsobit zamrznutí systému souborů během spouštění.
Platí pro:
- Pouze modely DD9400 a DD9900
- 8TB pevný disk v externích úložných skříních s firmwarem (FW) verze CA01 nebo CA02
Oprava:
- Opravené verze DDOS: Systémy DDOS 7.11.x, 7.10.1.0, 7.7.5.1 a novější mají vestavěný firmware CA04.
- Pro všechny ostatní verze systému DDOS 7.x je k dispozici upgrade s minimálním rušením (MDU).
- Odkaz na nástroj MDU: Přečtěte si mě + Stáhnout: Balíček upgradu firmwaru pevného disku DDOS 7.X Minimally Disruptive Upgrade (MDU) – listopad 2022 (k zobrazení dokumentu je vyžadováno přihlášení jako registrovaný uživatel podpory Dell)
Poznámka: Při použití upgradu s minimálním rušením je nutné systém souborů zakázat.
Příznaky selhání disku:
- Protokoly disku hlásí klíč zjišťování
4/0x29/0xcdpři provádění operace SCSI WRITEcdb 0x8a, jedna chyba příkazu zápisu způsobí selhání disku modulem DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- Pole DD_RAID přepne disky do stavu selhání kvůli chybám „WRITE I/O“.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
Příznaky, kdy nelze spustit systém DDFS:
- V souboru ddfs.info se během spouštění systému DDFS dlouho zobrazují níže uvedené zprávy. Proces nepokračuje, dokud není ukončen proces DDFS a vynuceno převzetí služeb při selhání partnerským uzlem.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) ===== 09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) ===== 09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub ... 09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
Cause
Hlavní příčina selhání disku:
Ve vyrovnávací paměti DRAM cache disku dochází při náhodném zatížení I/O k falešné chybě integrity dat. Výrobce disku poskytl opravu firmwaru, která tento problém řeší.
Resolution
Zástupné řešení
Pokud došlo k restartování nebo převzetí služeb při selhání, možnost pole DD_RAID „failback“ vadné disky nepřichází v úvahu. V takovém případě nechte dokončit tradiční obnovení disku (paritu). Zakažte Garbage Collection, dokud se nedokončí všechna opětovná sestavení disku. Pokud dojde k potížím se spuštěním systému souborů po restartování nebo převzetí služeb při selhání, obraťte se před ukončením procesu DDFS na oddělení DDFS TSE.
Pokud k restartování nebo převzetí služeb při selhání nedošlo, pole DD_RAID může „failback“ opětovné sestavení vadných disků. Jedná se o ruční operaci pomocí příkazu „dd_raidtool“ v terminálu bash. Před zahájením navrácení služeb po obnovení je nutné vadné diskové sloty vypnout a zapnout. Kontaktujte technickou podporu společnosti Dell a požádejte ji o pomoc.
Na základě praktických zkušeností umožněte dokončení obnovy disku nad 50 % a nepřepínejte na rekonstrukci navrácení služeb po obnovení.
Po dokončení všech opětovných sestavení mohou být disky, které jsou stále vadné, „unfailed“, pokud byly jejich příslušné sloty vypnuty a zapnuty.
Oprava
Firmware disku verze CA04 je nyní k dispozici jako oprava MDU ve formě balíčku upgradu DDOS. Obraťte se na podporu a vyžádejte si kopii RPM. Nachází se v /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.
Nejčastější dotazy:
- Lze upgrade provést online pomocí systému souborů Data Domain?
Ne, systém souborů DDFS musí být během upgradu firmwaru offline/zakázán. - Je nutné restartovat počítač?
Ne, restart není nutný. - Lze firmware použít na pasivní uzel?
Ne, nelze jej použít na pasivním uzlu. Je nutné jej spustit pouze na aktivním uzlu. - Jak dlouho trvá dokončení upgradu firmwaru CA04.RPM pro disky 180-240(4-DS60)?
Upgrade probíhá v paralelním režimu a pokud nedojde k žádným problémům, trvá 10–15 minut. - Pokud nejsou aktualizovány všechny jednotky, aktualizuje systém automaticky i disky bez CA04?
Ne, aktualizaci je nutné spustit znovu nebo ji lze provést ručně. Viz „Další informace“ níže. - Je nutné použít opravu FW drive-firmware-CA04.RPM firmwaru i u jiných systémů DD bez HA, protože ty mohou také mít starší firmware?
Doporučuje se použít firmware FW drive-firmware-CA04.RPM také u systémů DD bez HA s 8TB disky. - Pokud během aktualizace dojde k selhání disku, lze jej vrátit zpět?
Pokud disk selže před aktualizací firmwaru nebo během ní, zkontrolujte, zda disk neobsahuje historii chyb (například "disk show reliability-data"). Pokud disk vykazuje nějaké chyby, musí zůstat ve stavu selhání a je nutné jej vyměnit. Pokud disk neobsahuje žádné chyby, spusťte příkaz „disk unfail <disk.id>“, čímž disk přepnete ze stavu selhání a vytvoříte z něj náhradní disk. Pokud je vadný disk nahrazen diskem se starším firmwarem CA01/CA02, je nutné disk aktualizovat ručně. Viz část „Jak ručně aktualizovat náhradní disky“ v další části níže. - Proč je nutné pozastavit aktivitu ve skupině disků 2 (DG2), i když je služba DDFS mimo provoz?
Systém DDOS bude mít i nadále přístup k přípojkám EXT3, které existují ve skupině DG2.
Použití balíčku s minimálním rušením:
- Připojte se k aktivnímu uzlu systému HA. Aktualizace nefunguje z pasivního nebo pohotovostního uzlu.
- Naplánujte s uživatelem odstávku, protože během aktualizace firmwaru musí být služba DDFS zakázána. Spuštěním následujících příkazů zkontrolujte aktuální výstrahy a podle potřeby je vyřešte. Zastavte proces mazání dat, pokud je spuštěný. Zakažte systém souborů.
# alerts show current# filesys clean status# filesys clean stop# filesys disable - Zkontrolujte automatickou podporu pro disky CA01/CA02, které jsou součástí skupiny >=dg2 u systémů, které neprošly migrací úložiště. U systémů, které prošly migrací úložiště, nemusí být dg2 skupinou disků s poli ext3.
Vyhledejte pole ext3. Zobrazuje DD_RAID histogram pro dgXX, kde XX je číslo DG. Viz část „Další informace“ níže. Pokud mají disky dg2/dgXX firmware CA01/C02, musí být pole během procesu upgradu MDU dočasně pozastaveno. Pokud tak neučiníte, může dojít k dalšímu selhání, pokud nejsou pozastaveny všechny aktivity I/O ve skupině disků. Otevřete případ podpory a požádejte o pomoc s pozastavením skupiny disků. Pokud skupina disků dg2/dgXX neobsahuje disky CA01/CA02, případ podpory není nutný. Přejděte ke kroku 4. - Nahrajte soubor
drive-firmware-CA04.rpmv rozhraní nástroje DD System Manager. - Upgradujte disky. Spusťte následující příkaz a počkejte na dokončení.
# system upgrade start drive-firmware-CA04.rpm" - Počkejte zhruba 10 minut.
- Zkontrolujte, zda jsou upgradovány všechny disky. Pokud se disky stále zobrazují s firmwarem CA01/CA02, opakujte kroky 5 a 6.
# disk show hardware - Zkontrolujte aktuální stav disku. Pokud selže více disků, požádejte o pomoc podporu. V případě selhání jednoho disku zkontrolujte, zda disk neobsahuje historii chyb. Pokud žádné chyby nejsou, přepněte disk ze stavu selhání.
# disk unfail <disk.id> - Ověřte výstrahy a povolte systém DDFS.
# alerts show current# filesys enable
Additional Information
Jak zkontrolovat disky dg2/dgXX, které mají pole ext3 a obsahují firmware CA01/CA02.
U systémů, které nebyly migrovány do úložiště, má disk dg2 pole ext3.
Vyhledejte v automatické podpoře následující řádky. (tučně)
- Histogram DD_RAID
DD_RAID Histogram for dg2 0xafc318cb033dc226 DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All (tento příkaz lze spustit také v rozhraní příkazového řádku DD)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB 2.37-2.39, 2.49-2.50
- Disk Show Hardware (tento příkaz lze spustit v rozhraní příkazového řádku DD)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919 2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919 2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919 2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919 2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919 2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919 2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919 2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919 2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919 2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919 2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919 2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919 2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919 2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919 2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
Ve výše uvedeném příkladu mají disky firmware CA01. Aby mohla společnost Dell Technologies pomoci s pozastavením skupiny disků (DG2) obsahující pole ext3 před použitím upgradu MDU, je nutné otevřít případ podpory.
U systémů migrovaných do úložiště nemusí ext3 obsahovat pole dg2. V automatické podpoře vyhledejte následující řádky. (Tučně)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses -------- System locking-id: APX00123456789 Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode Capacity licenses: ## Feature Shelf Model Capacity Type State Expiration Date Note -- --------------- ------------ ----------- --------- ------ --------------- ---- 1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a -- --------------- ------------ ----------- --------- ------ --------------- ---- Licensed Active Tier capacity: 1396.98 TiB* * Depending on the hardware platform, usable filesystem capacities may vary. Feature licenses: ## Feature Count Type State Expiration Date Note -- ---------------------------------------- ----- ---------- ------ --------------- --------------- 1 REPLICATION 1 permanent active n/a 2 VTL 1 permanent active n/a 3 DDBOOST 1 permanent active n/a 4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a 5 ENCRYPTION 1 permanent active n/a 6 I/OS 1 permanent active n/a 7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a 8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20 -- ---------------------------------------- ----- ---------- ------ --------------- --------------- License file last modified at : 2022/08/29 11:02:13.
- Histogram DD_RAID
DD_RAID Histogram for dg23 0x323d6b863ae21b8f DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB 6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785 6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785 6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785 6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785 6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785 6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785 6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785 6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
Vzhledem k tomu, že jednotky nemají firmware CA01 a CA02, není vyžadován případ podpory. Přejděte ke kroku 3 postupu upgradu s minimálním rušením v části „Řešení“.