Data Domain: Mehrere Laufwerke ausfallen während des Failovers von HA-Systemen | CA01 CA02 FW-Problem

Summary: Bei Data Domain High Availability (HA) kann es während des HA-Failovers aufgrund eines bekannten Problems mit der Laufwerksfirmware zu Laufwerksausfällen kommen. Bei einigen Systemen kann das Dateisystem nach einem Failover oder Neustart möglicherweise nicht gestartet werden. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Die Ausfälle betreffen nur 8-TB-Laufwerke mit CA01- und CA02-Firmwareversionen. In der Regel sind mehrere RAID-Gruppen (Festplattengruppen) betroffen. Es kann sich um eine einfache Herunterstufung (ein Ausfall) oder doppelte Herunterstufung (zwei Festplattenausfälle) handeln.

Bei Systemen, die nicht neu gestartet werden, tritt eine Unterbrechung des Dateisystems auf, sie sollten sich jedoch selbstständig wiederherstellen, wobei mehrere laufende und ausstehende Festplattenwiederherstellungen vorhanden sind. Bei Systemen, die neu gestartet werden, wird ein Failover erzwungen, was dazu führen kann, dass das Dateisystem während des Startvorgangs hängen bleibt.

Gilt für:

  • Nur DD9400- und DD9900-Modelle
  • 8-TB-Festplatten in externen Storage-Gehäusen mit Firmwareversion CA01 oder CA02

Fehlerbehebung:


Hinweis: Das Dateisystem sollte bei Anwendung des MDU deaktiviert werden.


Symptome eines Festplattenausfalls:

  • In den Festplattenprotokollen wird der Prüfschlüssel 4/0x29/0xcd bei der Durchführung eines SCSI-SCHREIBVORGANGS cdb 0x8agemeldet. Ein Schreibbefehlsfehler führt zum Festplattenausfall des DD_RAID-Moduls.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • Das DD_RAID lässt Festplatten aufgrund von „SCHREIB-I/O“-Fehlern fehlschlagen.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

Symptome eines DDFS, das nicht gestartet werden kann:

  • In ddfs.info geben die folgenden Meldungen einen langen Zeitraum für den DDFS-Start an. Er wird erst fortgesetzt, wenn der DDFS-Prozess beendet und ein Failover auf den Peer-Node erzwungen wird.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Cause

Ursache für den Festplattenausfall:
Der DRAM-Cachepuffer des Laufwerks stößt bei einer Workload mit zufälligen I/O-Operationen auf einen falschen Datenintegritätsfehler. Der Laufwerkshersteller hat eine Firmwarekorrektur bereitgestellt, um dieses Problem zu beheben.

Resolution

Problemumgehung

Wenn ein Neustart oder Failover stattgefunden hat, kann das DD_RAID kein „failback“ der ausgefallenen Laufwerke durchführen. Warten Sie in diesem Fall, bis die herkömmlichen Festplattenwiederherstellungen (Parität) abgeschlossen sind. Deaktivieren Sie die automatische Speicherbereinigung, bis alle Festplattenwiederherstellungen abgeschlossen sind. Wenn beim Starten des Dateisystems nach einem Neustart oder Failover ein Problem auftritt, wenden Sie sich an eine/n DDFS-TSE, bevor Sie den DDFS-Prozess beenden.

Wenn kein Neustart oder Failover stattgefunden hat, kann das DD_RAID eine „failback“-Neuerstellung der ausgefallenen Festplatten durchführen. Es handelt sich um einen manuellen Vorgang, bei dem „dd_raidtool“ in Bash verwendet wird. Bevor Sie ein Festplatten-"Failback" initiieren, müssen die ausgefallenen Festplattensteckplätze aus- und wieder eingeschaltet werden. Wenden Sie sich dazu an den technischen Support von Dell .

Aus praktischer Erfahrung sollten Sie Festplattenwiederherstellungen, die zu mehr als 50 % abgeschlossen sind, bis zum Ende laufen lassen, anstatt zur Failback-Rekonstruktion zu wechseln.

Nachdem alle Wiederherstellungen abgeschlossen sind, können Laufwerke, die immer noch als „failed“ angezeigt werden, „unfailed“ werden, wenn die jeweiligen Steckplätze aus- und wieder eingeschaltet wurden. 


Fehlerbehebung

Die Festplattenfirmwareversion CA04 ist jetzt als MDU-Patch in Form eines DDOS-Upgradepakets verfügbar. Wenden Sie sich an den Support, um eine Kopie des RPM zu erhalten. Es befindet sich in /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.


FAQs: 

  1. Kann das Upgrade durchgeführt werden, wenn ein Data Domain-Dateisystem online ist?
    Nein, DDFS muss während des FW-Upgrades offline/deaktiviert sein.
  2. Ist ein Neustart erforderlich?
    Nein, es ist kein Neustart erforderlich.
  3. Kann die Firmware auf den passiven Node angewendet werden?
    Nein, sie kann nicht auf den passiven Node angewendet werden. Sie darf nur auf dem aktiven Node ausgeführt werden.
  4. Wie lange dauert das Laufwerksfirmware-CA04.RPM-Upgrade für 180–240 (4-DS60) Laufwerke?
    Das Upgrade erfolgt im parallelen Modus. Wenn keine Probleme auftreten, dauert es 10 bis 15 Minuten.
  5. Aktualisiert das System die Nicht-CA04-Laufwerke automatisch, wenn nicht alle Laufwerke aktualisiert werden?
    Nein, das Update muss erneut ausgeführt oder manuell durchgeführt werden. Siehe „Zusätzliche Informationen“ unten.
  6. Muss der Laufwerksfirmware-CA04.RPM-Patch auch auf andere Nicht-HA-DDs angewendet werden, da diese möglicherweise auch Laufwerke mit älterer FW haben?
    Es wird empfohlen, das Laufwerksfirmware-CA04.RPM auch auf Nicht-HA-DDs mit 8-TB-Laufwerken anzuwenden.
  7. Wenn ein Laufwerk während des Updates ausfällt, kann es dann rückgängig gemacht werden?
    Wenn ein Laufwerk vor oder während des Firmwareupdates ausfällt, überprüfen Sie die Festplatte auf Fehlerverlauf (z. B. "disk show reliability-data"). Wenn das Laufwerk Fehler aufweist, muss es „failed“ bleiben und ersetzt werden. Wenn die Festplatte keine Fehler aufweist, führen Sie den Befehl „disk unfail <disk.id>“ aus, um das Laufwerk zu „unfailen“ und es zu einem Ersatzlaufwerk zu machen. Wenn ein ausgefallenes Laufwerk durch ein Laufwerk mit der älteren CA01/CA02-Laufwerksfirmware ersetzt wird, muss das Laufwerk manuell aktualisiert werden. Weitere Informationen finden Sie im nachfolgenden Abschnitt „Manuelles Update von Ersatzlaufwerken“.
  8. Warum muss die Aktivität in Laufwerksgruppe 2 (dg2) angehalten werden, selbst wenn DDFS ausgefallen ist?
    DDOS hat weiterhin Zugriff auf die ext3-Mounts, die auf dg2 vorhanden sind.


Anwenden des MDU-Pakets:

  1. Stellen Sie eine Verbindung zum aktiven Node des HA-Systems her. Das Update funktioniert nicht über den passiven oder Stand-by-Node.
  2. Planen Sie Ausfallzeiten mit dem Nutzer ein, da DDFS während des Firmwareupdates deaktiviert werden muss. Führen Sie die folgenden Befehle aus, um aktuelle Warnmeldungen zu überprüfen und bei Bedarf zu beheben. Beenden Sie den Bereinigungsvorgang, sofern er ausgeführt wird. Deaktivieren Sie das Dateisystem. 
                # alerts show current
          # filesys clean status
          # filesys clean stop
          # filesys disable
  3. Überprüfen Sie für Systeme, die keine Storage-Migration durchlaufen haben, den Autosupport auf CA01/CA02-Festplatten, die Teil von >=dg2 sind. Bei Systemen, für die eine Storage-Migration durchgeführt wurde, ist die Festplattengruppe mit ext3-Arrays möglicherweise nicht dg2. 
    Suchen Sie nach „ext3“. Es zeigt DD_RAID Histogramm für dgXX, wobei XX die DG-Nummer ist. Ein Beispiel finden Sie im Abschnitt „Zusätzliche Informationen“ unten. Wenn die dg2/dgXX-Festplatten über CA01/C02-Firmware verfügen, muss das Array während des MDU-Upgradeprozesses vorübergehend angehalten werden. Andernfalls können weitere Fehler auftreten, sofern nicht alle I/O-Aktivitäten in der Laufwerksgruppe unterbrochen werden. Eröffnen Sie einen Supportfall, um Unterstützung beim Anhalten der Laufwerksgruppe zu erhalten. Wenn dg2/dgXX keine CA01/CA02-Festplatten enthält, ist kein Supportfall erforderlich. Fahren Sie mit Schritt 4 fort.
  4. Laden Sie die drive-firmware-CA04.rpm über die DD System Manager-Benutzeroberfläche.
  5. Aktualisieren Sie die Festplatten. Führen Sie den folgenden Befehl aus und warten Sie, bis er abgeschlossen ist. 
               # system upgrade start drive-firmware-CA04.rpm"
  6. Warten Sie ca. 10 Minuten.
  7. Überprüfen Sie, ob alle Festplatten aktualisiert wurden. Wenn weiterhin Festplatten mit CA01/CA02-Firmware angezeigt werden, wiederholen Sie Schritt 5 und 6. 
               # disk show hardware
  8. Überprüfen Sie den aktuellen Festplattenstatus. Wenn mehrere Festplatten ausgefallen sind, wenden Sie sich an den Support, um Unterstützung zu erhalten. Überprüfen Sie bei Ausfall einer einzelnen Festplatte den Fehlerverlauf der Festplatte. Wenn keine Fehler vorliegen, führen Sie für die Festplatte „unfail“ durch. 
              # disk unfail <disk.id>
  9. Überprüfen Sie die Warnmeldungen und aktivieren Sie DDFS. 
              # alerts show current
              # filesys enable

Additional Information

So überprüfen Sie, welche dg2/dgXX-Festplatten ext3-Arrays und CA01/CA02-Firmware enthalten.
Bei Systemen, bei denen kein Storage migriert wurde, verfügt dg2 über die ext3-Arrays.

Suchen Sie im Autosupport nach den folgenden Zeilen. (fett formatiert)

  • DD_RAID Histogramm
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All (Dieser Befehl kann auch in der DD-CLI ausgeführt werden)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware (Dieser Befehl kann in der DD-CLI ausgeführt werden)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

 

Im obigen Beispiel verfügen die Laufwerke über CA01-Firmware. Es muss eine Supportanfrage erstellt werden, damit Dell Technologies beim Anhalten der Festplattengruppe (dg2) mit dem ext3-Array behilflich sein kann, bevor das MDU-Upgrade angewendet wird. 

Bei Systemen mit migriertem Storage ist das Array mit ext3 möglicherweise nicht auf dg2. Suchen Sie im Autosupport nach den folgenden Zeilen. (fett formatiert)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • DD_RAID Histogramm
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


Da die Laufwerke nicht über CA01- und CA02-Firmware verfügen, ist kein Supportfall erforderlich. Fahren Sie mit Schritt 3 der MDU-Upgradeschritte im Abschnitt „Lösung“ oben fort.

Affected Products

Data Domain, DD9400 Appliance, DD9900 Appliance

Products

DD OS 7.11
Article Properties
Article Number: 000204252
Article Type: Solution
Last Modified: 30 Oct 2025
Version:  19
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.