Data Domain: Mehrere Laufwerke ausfallen während des Failovers von HA-Systemen | CA01 CA02 FW-Problem
Summary: Bei Data Domain High Availability (HA) kann es während des HA-Failovers aufgrund eines bekannten Problems mit der Laufwerksfirmware zu Laufwerksausfällen kommen. Bei einigen Systemen kann das Dateisystem nach einem Failover oder Neustart möglicherweise nicht gestartet werden. ...
Symptoms
Die Ausfälle betreffen nur 8-TB-Laufwerke mit CA01- und CA02-Firmwareversionen. In der Regel sind mehrere RAID-Gruppen (Festplattengruppen) betroffen. Es kann sich um eine einfache Herunterstufung (ein Ausfall) oder doppelte Herunterstufung (zwei Festplattenausfälle) handeln.
Bei Systemen, die nicht neu gestartet werden, tritt eine Unterbrechung des Dateisystems auf, sie sollten sich jedoch selbstständig wiederherstellen, wobei mehrere laufende und ausstehende Festplattenwiederherstellungen vorhanden sind. Bei Systemen, die neu gestartet werden, wird ein Failover erzwungen, was dazu führen kann, dass das Dateisystem während des Startvorgangs hängen bleibt.
Gilt für:
- Nur DD9400- und DD9900-Modelle
- 8-TB-Festplatten in externen Storage-Gehäusen mit Firmwareversion CA01 oder CA02
Fehlerbehebung:
- Behoben in DDOS-Versionen: DDOS 7.11.x, 7.10.1.0 und 7.7.5.1 und höher verfügen über die CA04-Firmware.
- Für alle anderen DDOS-7.x-Versionen ist ein Minimal Disruptive Upgrade (MDU) verfügbar.
- Link zur MDU: Readme + Download: DDOS 7.X Festplattenfirmwarepaket für minimal disruptive Upgrades (MDU) – November 2022 (Anmeldung als registrierter Dell Support-Nutzer erforderlich, um das Dokument anzuzeigen)
Hinweis: Das Dateisystem sollte bei Anwendung des MDU deaktiviert werden.
Symptome eines Festplattenausfalls:
- In den Festplattenprotokollen wird der Prüfschlüssel
4/0x29/0xcdbei der Durchführung eines SCSI-SCHREIBVORGANGScdb 0x8agemeldet. Ein Schreibbefehlsfehler führt zum Festplattenausfall des DD_RAID-Moduls.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- Das DD_RAID lässt Festplatten aufgrund von „SCHREIB-I/O“-Fehlern fehlschlagen.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
Symptome eines DDFS, das nicht gestartet werden kann:
- In ddfs.info geben die folgenden Meldungen einen langen Zeitraum für den DDFS-Start an. Er wird erst fortgesetzt, wenn der DDFS-Prozess beendet und ein Failover auf den Peer-Node erzwungen wird.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) ===== 09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) ===== 09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub ... 09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
Cause
Ursache für den Festplattenausfall:
Der DRAM-Cachepuffer des Laufwerks stößt bei einer Workload mit zufälligen I/O-Operationen auf einen falschen Datenintegritätsfehler. Der Laufwerkshersteller hat eine Firmwarekorrektur bereitgestellt, um dieses Problem zu beheben.
Resolution
Problemumgehung
Wenn ein Neustart oder Failover stattgefunden hat, kann das DD_RAID kein „failback“ der ausgefallenen Laufwerke durchführen. Warten Sie in diesem Fall, bis die herkömmlichen Festplattenwiederherstellungen (Parität) abgeschlossen sind. Deaktivieren Sie die automatische Speicherbereinigung, bis alle Festplattenwiederherstellungen abgeschlossen sind. Wenn beim Starten des Dateisystems nach einem Neustart oder Failover ein Problem auftritt, wenden Sie sich an eine/n DDFS-TSE, bevor Sie den DDFS-Prozess beenden.
Wenn kein Neustart oder Failover stattgefunden hat, kann das DD_RAID eine „failback“-Neuerstellung der ausgefallenen Festplatten durchführen. Es handelt sich um einen manuellen Vorgang, bei dem „dd_raidtool“ in Bash verwendet wird. Bevor Sie ein Festplatten-"Failback" initiieren, müssen die ausgefallenen Festplattensteckplätze aus- und wieder eingeschaltet werden. Wenden Sie sich dazu an den technischen Support von Dell .
Aus praktischer Erfahrung sollten Sie Festplattenwiederherstellungen, die zu mehr als 50 % abgeschlossen sind, bis zum Ende laufen lassen, anstatt zur Failback-Rekonstruktion zu wechseln.
Nachdem alle Wiederherstellungen abgeschlossen sind, können Laufwerke, die immer noch als „failed“ angezeigt werden, „unfailed“ werden, wenn die jeweiligen Steckplätze aus- und wieder eingeschaltet wurden.
Fehlerbehebung
Die Festplattenfirmwareversion CA04 ist jetzt als MDU-Patch in Form eines DDOS-Upgradepakets verfügbar. Wenden Sie sich an den Support, um eine Kopie des RPM zu erhalten. Es befindet sich in /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.
FAQs:
- Kann das Upgrade durchgeführt werden, wenn ein Data Domain-Dateisystem online ist?
Nein, DDFS muss während des FW-Upgrades offline/deaktiviert sein. - Ist ein Neustart erforderlich?
Nein, es ist kein Neustart erforderlich. - Kann die Firmware auf den passiven Node angewendet werden?
Nein, sie kann nicht auf den passiven Node angewendet werden. Sie darf nur auf dem aktiven Node ausgeführt werden. - Wie lange dauert das Laufwerksfirmware-CA04.RPM-Upgrade für 180–240 (4-DS60) Laufwerke?
Das Upgrade erfolgt im parallelen Modus. Wenn keine Probleme auftreten, dauert es 10 bis 15 Minuten. - Aktualisiert das System die Nicht-CA04-Laufwerke automatisch, wenn nicht alle Laufwerke aktualisiert werden?
Nein, das Update muss erneut ausgeführt oder manuell durchgeführt werden. Siehe „Zusätzliche Informationen“ unten. - Muss der Laufwerksfirmware-CA04.RPM-Patch auch auf andere Nicht-HA-DDs angewendet werden, da diese möglicherweise auch Laufwerke mit älterer FW haben?
Es wird empfohlen, das Laufwerksfirmware-CA04.RPM auch auf Nicht-HA-DDs mit 8-TB-Laufwerken anzuwenden. - Wenn ein Laufwerk während des Updates ausfällt, kann es dann rückgängig gemacht werden?
Wenn ein Laufwerk vor oder während des Firmwareupdates ausfällt, überprüfen Sie die Festplatte auf Fehlerverlauf (z. B. "disk show reliability-data"). Wenn das Laufwerk Fehler aufweist, muss es „failed“ bleiben und ersetzt werden. Wenn die Festplatte keine Fehler aufweist, führen Sie den Befehl „disk unfail <disk.id>“ aus, um das Laufwerk zu „unfailen“ und es zu einem Ersatzlaufwerk zu machen. Wenn ein ausgefallenes Laufwerk durch ein Laufwerk mit der älteren CA01/CA02-Laufwerksfirmware ersetzt wird, muss das Laufwerk manuell aktualisiert werden. Weitere Informationen finden Sie im nachfolgenden Abschnitt „Manuelles Update von Ersatzlaufwerken“. - Warum muss die Aktivität in Laufwerksgruppe 2 (dg2) angehalten werden, selbst wenn DDFS ausgefallen ist?
DDOS hat weiterhin Zugriff auf die ext3-Mounts, die auf dg2 vorhanden sind.
Anwenden des MDU-Pakets:
- Stellen Sie eine Verbindung zum aktiven Node des HA-Systems her. Das Update funktioniert nicht über den passiven oder Stand-by-Node.
- Planen Sie Ausfallzeiten mit dem Nutzer ein, da DDFS während des Firmwareupdates deaktiviert werden muss. Führen Sie die folgenden Befehle aus, um aktuelle Warnmeldungen zu überprüfen und bei Bedarf zu beheben. Beenden Sie den Bereinigungsvorgang, sofern er ausgeführt wird. Deaktivieren Sie das Dateisystem.
# alerts show current# filesys clean status# filesys clean stop# filesys disable - Überprüfen Sie für Systeme, die keine Storage-Migration durchlaufen haben, den Autosupport auf CA01/CA02-Festplatten, die Teil von >=dg2 sind. Bei Systemen, für die eine Storage-Migration durchgeführt wurde, ist die Festplattengruppe mit ext3-Arrays möglicherweise nicht dg2.
Suchen Sie nach „ext3“. Es zeigt DD_RAID Histogramm für dgXX, wobei XX die DG-Nummer ist. Ein Beispiel finden Sie im Abschnitt „Zusätzliche Informationen“ unten. Wenn die dg2/dgXX-Festplatten über CA01/C02-Firmware verfügen, muss das Array während des MDU-Upgradeprozesses vorübergehend angehalten werden. Andernfalls können weitere Fehler auftreten, sofern nicht alle I/O-Aktivitäten in der Laufwerksgruppe unterbrochen werden. Eröffnen Sie einen Supportfall, um Unterstützung beim Anhalten der Laufwerksgruppe zu erhalten. Wenn dg2/dgXX keine CA01/CA02-Festplatten enthält, ist kein Supportfall erforderlich. Fahren Sie mit Schritt 4 fort. - Laden Sie die
drive-firmware-CA04.rpmüber die DD System Manager-Benutzeroberfläche. - Aktualisieren Sie die Festplatten. Führen Sie den folgenden Befehl aus und warten Sie, bis er abgeschlossen ist.
# system upgrade start drive-firmware-CA04.rpm" - Warten Sie ca. 10 Minuten.
- Überprüfen Sie, ob alle Festplatten aktualisiert wurden. Wenn weiterhin Festplatten mit CA01/CA02-Firmware angezeigt werden, wiederholen Sie Schritt 5 und 6.
# disk show hardware - Überprüfen Sie den aktuellen Festplattenstatus. Wenn mehrere Festplatten ausgefallen sind, wenden Sie sich an den Support, um Unterstützung zu erhalten. Überprüfen Sie bei Ausfall einer einzelnen Festplatte den Fehlerverlauf der Festplatte. Wenn keine Fehler vorliegen, führen Sie für die Festplatte „unfail“ durch.
# disk unfail <disk.id> - Überprüfen Sie die Warnmeldungen und aktivieren Sie DDFS.
# alerts show current# filesys enable
Additional Information
So überprüfen Sie, welche dg2/dgXX-Festplatten ext3-Arrays und CA01/CA02-Firmware enthalten.
Bei Systemen, bei denen kein Storage migriert wurde, verfügt dg2 über die ext3-Arrays.
Suchen Sie im Autosupport nach den folgenden Zeilen. (fett formatiert)
- DD_RAID Histogramm
DD_RAID Histogram for dg2 0xafc318cb033dc226 DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All (Dieser Befehl kann auch in der DD-CLI ausgeführt werden)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB 2.37-2.39, 2.49-2.50
- Disk Show Hardware (Dieser Befehl kann in der DD-CLI ausgeführt werden)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919 2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919 2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919 2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919 2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919 2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919 2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919 2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919 2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919 2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919 2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919 2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919 2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919 2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919 2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
Im obigen Beispiel verfügen die Laufwerke über CA01-Firmware. Es muss eine Supportanfrage erstellt werden, damit Dell Technologies beim Anhalten der Festplattengruppe (dg2) mit dem ext3-Array behilflich sein kann, bevor das MDU-Upgrade angewendet wird.
Bei Systemen mit migriertem Storage ist das Array mit ext3 möglicherweise nicht auf dg2. Suchen Sie im Autosupport nach den folgenden Zeilen. (fett formatiert)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses -------- System locking-id: APX00123456789 Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode Capacity licenses: ## Feature Shelf Model Capacity Type State Expiration Date Note -- --------------- ------------ ----------- --------- ------ --------------- ---- 1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a -- --------------- ------------ ----------- --------- ------ --------------- ---- Licensed Active Tier capacity: 1396.98 TiB* * Depending on the hardware platform, usable filesystem capacities may vary. Feature licenses: ## Feature Count Type State Expiration Date Note -- ---------------------------------------- ----- ---------- ------ --------------- --------------- 1 REPLICATION 1 permanent active n/a 2 VTL 1 permanent active n/a 3 DDBOOST 1 permanent active n/a 4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a 5 ENCRYPTION 1 permanent active n/a 6 I/OS 1 permanent active n/a 7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a 8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20 -- ---------------------------------------- ----- ---------- ------ --------------- --------------- License file last modified at : 2022/08/29 11:02:13.
- DD_RAID Histogramm
DD_RAID Histogram for dg23 0x323d6b863ae21b8f DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB 6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785 6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785 6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785 6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785 6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785 6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785 6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785 6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
Da die Laufwerke nicht über CA01- und CA02-Firmware verfügen, ist kein Supportfall erforderlich. Fahren Sie mit Schritt 3 der MDU-Upgradeschritte im Abschnitt „Lösung“ oben fort.