Data Domain: Mehrere Laufwerke ausfallen während des Failovers von HA-Systemen | CA01 CA02 FW-Problem

Summary: Bei Data Domain High Availability (HA) kann es während des HA-Failovers aufgrund eines bekannten Problems mit der Laufwerksfirmware zu Laufwerksausfällen kommen. Bei einigen Systemen kann das Dateisystem nach einem Failover oder Neustart möglicherweise nicht gestartet werden. ...

Acest articol se aplică pentru Acest articol nu se aplică pentru Acest articol nu este legat de un produs specific. Acest articol nu acoperă toate versiunile de produs existente.

Symptoms

Die Ausfälle betreffen nur 8-TB-Laufwerke mit CA01- und CA02-Firmwareversionen. In der Regel sind mehrere RAID-Gruppen (Festplattengruppen) betroffen. Sie kann einfach heruntergestuft (ein Ausfall) oder doppelt herabgesetzt (zwei Festplattenausfälle) sein.

Bei Systemen, die nicht neu gestartet werden, kommt es zu einer Unterbrechung des Dateisystems, sondern sie sollten selbstständig wiederhergestellt werden. Es werden mehrere Festplattenwiederherstellungen durchgeführt und diese müssen ausstehen. Bei Systemen, die neu gestartet werden, wird ein Failover erzwungen, was dazu führen kann, dass das Dateisystem während des Startvorgangs hängen bleibt.

Gilt für:

  • Nur DD9400- und DD9900-Modelle
  • 8-TB-Festplatten in externen Storage-Gehäusen mit Firmwareversion CA01 oder CA02

Symptome eines Festplattenausfalls:

  • Festplattenprotokollbericht sense key 4/0x29/0xcd bei der Durchführung eines SCSI-SCHREIBVORGANGS cdb 0x8a, Ein Schreibbefehlsfehler führt zu einem Festplattenausfall des DD_RAID Moduls.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • Das DD_RAID lässt Festplatten aufgrund von „SCHREIB-I/O“-Fehlern fehlschlagen.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

Symptome eines DDFS, das nicht gestartet werden kann:

  • In ddfs.infobefinden, beziehen sich die folgenden Meldungen während des DDFS-Starts auf einen langen Zeitraum. Er wird erst fortgesetzt, wenn der DDFS-Prozess beendet und ein Failover auf den Peer-Node erzwungen wird.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Cause

Der DRAM-Cachepuffer des Laufwerks stößt bei zufälligen I/O-Workloads auf einen falschen Datenintegritätsfehler . Dies löst Festplattenausfälle aus.
Der Laufwerkhersteller hat einen Firmwarefix bereitgestellt, um dieses Problem zu beheben.

Resolution

Fehlerbehebung:

  • Behoben in DDOS-Versionen: DDOS 7.11.x, 7.10.1.0 und 7.7.5.1 und höher verfügen über die CA04-Firmware.
  • Für alle anderen DDOS-7.x-Versionen ist ein Minimal Disruptive Upgrade (MDU) verfügbar.
    • Link zur MDU: Readme + Download: DDOS 7.X Festplattenfirmwarepaket für minimal disruptive Upgrades (MDU) – November 2022 (Anmeldung als registrierter Dell Support-Nutzer erforderlich, um das Dokument anzuzeigen)
    • Anwenden des MDU-Pakets:

      1. Stellen Sie eine Verbindung zum aktiven Node des HA-Systems her. Das Update funktioniert nicht über den passiven oder Stand-by-Node.
      2. Planen Sie Ausfallzeiten mit dem Nutzer ein, da DDFS während des Firmwareupdates deaktiviert werden muss. Führen Sie die folgenden Befehle aus, um aktuelle Warnmeldungen zu überprüfen und bei Bedarf zu beheben. Beenden Sie den Bereinigungsvorgang, sofern er ausgeführt wird. Deaktivieren Sie das Dateisystem. 
                    # alerts show current
              # filesys clean status
              # filesys clean stop
              # filesys disable
      3. Überprüfen Sie für Systeme, die keine Storage-Migration durchlaufen haben, den Autosupport auf CA01/CA02-Festplatten, die Teil von >=dg2 sind. Bei Systemen, für die eine Storage-Migration durchgeführt wurde, ist die Festplattengruppe mit ext3-Arrays möglicherweise nicht dg2. 
        Suchen Sie nach „ext3“. Es zeigt DD_RAID Histogramm für dgXX, wobei XX die DG-Nummer ist. Ein Beispiel finden Sie im Abschnitt „Zusätzliche Informationen“ unten. Wenn die dg2/dgXX-Festplatten über CA01/C02-Firmware verfügen, muss das Array während des MDU-Upgradeprozesses vorübergehend angehalten werden. Andernfalls können weitere Fehler auftreten, sofern nicht alle I/O-Aktivitäten in der Laufwerksgruppe unterbrochen werden. Eröffnen Sie einen Supportfall, um Unterstützung beim Anhalten der Laufwerksgruppe zu erhalten. Wenn dg2/dgXX keine CA01/CA02-Festplatten enthält, ist kein Supportfall erforderlich. Fahren Sie mit Schritt 4 fort.
      4. Laden Sie die drive-firmware-CA04.rpm über die DD System Manager-Benutzeroberfläche.
      5. Aktualisieren Sie die Festplatten. Führen Sie den folgenden Befehl aus und warten Sie, bis er abgeschlossen ist. 
                   # system upgrade start drive-firmware-CA04.rpm"
      6. Warten Sie ca. 10 Minuten.
      7. Überprüfen Sie, ob alle Festplatten aktualisiert wurden. Wenn weiterhin Festplatten mit CA01/CA02-Firmware angezeigt werden, wiederholen Sie Schritt 5 und 6. 
                   # disk show hardware
      8. Überprüfen Sie den aktuellen Festplattenstatus. Wenn mehrere Festplatten ausgefallen sind, wenden Sie sich an den Support, um Unterstützung zu erhalten. Überprüfen Sie bei Ausfall einer einzelnen Festplatte den Fehlerverlauf der Festplatte. Wenn keine Fehler vorliegen, führen Sie für die Festplatte „unfail“ durch. 
                  # disk unfail <disk.id>
      9. Überprüfen Sie die Warnmeldungen und aktivieren Sie DDFS. 
                  # alerts show current
                  # filesys enable
Hinweis: Das Dateisystem sollte bei Anwendung des MDU deaktiviert werden.

Problemumgehung

  • Wenn ein Neustart oder ein Failover aufgetreten ist:
    • DD_RAID können kein Failback für ausgefallene Laufwerke durchführen.
    • Ermöglicht den Abschluss herkömmlicher paritätsbasierter Festplattenwiederherstellungen.
    • Deaktivieren Sie GC , bis alle Neuerstellungen abgeschlossen sind.
    • Wenn das Dateisystem nicht gestartet werden kann, wenden Sie sich an einen DDFS-TSE.
  • Wenn der Neustart oder das Failover NICHT stattgefunden hat:
    • DD_RAID TSE kann ein manuelles Failback von Festplatten durchführen, indem Sie dd_raidtool.
    • Ausgefallene Festplattensteckplätze müssen aus- und wieder eingeschaltet werden (wenden Sie sich an den Dell Support).
    • Warten Sie, bis Wiederherstellungen zu mehr als 50 % abgeschlossen sind, bevor Sie zur Failback-Rekonstruktion wechseln.
    • Nach der Neuerstellung können Festplatten "rückgängig gemacht" werden, wenn die Steckplätze aus- und wieder eingeschaltet wurden.

Additional Information

FAQs

F: Kann das Firmwareupgrade durchgeführt werden, während das Data Domain-Dateisystem online ist?
Ein: Nein. Das DDFS muss während des Firmwareupgrades deaktiviert werden.


F: Ist nach dem Anwenden des Firmwareupdates ein Systemneustart erforderlich?
Ein: Nein. Ein Neustart ist nicht erforderlich.


F: Kann die Firmware auf den passiven Node angewendet werden?
Ein: Nein. Das Update darf nur auf dem aktiven Node durchgeführt werden.


F: Wie lange dauert das Firmwareupgrade für 180–240 Laufwerke (4 DS60-Einschübe)?
Ein: Das Upgrade wird im parallelen Modus ausgeführt und in der Regel in 10 bis 15 Minuten abgeschlossen, sofern keine Probleme auftreten.


F: Wird das System die Aktualisierung automatisch wiederholen, wenn einige Laufwerke nicht aktualisiert werden?
Ein: Nein. Das Update muss manuell erneut ausgeführt oder für die verbleibenden Laufwerke wiederholt werden. Informationen zu manuellen Aktualisierungsschritten finden Sie unter "Weitere Informationen".


F: Sollte der Firmwarepatch auch auf Nicht-HA-Data Domain-Systeme angewendet werden?
Ein: Ja. Es wird empfohlen, den Patch "drive-firmware-CA04.RPM" auf allen Systemen mit 8-TB-Laufwerken anzuwenden, auf denen ältere Firmware ausgeführt wird.


F: Wenn ein Laufwerk während des Updates ausfällt, kann es wiederhergestellt werden?
Ein:

  • Wenn die Festplatte einen Fehlerverlauf anzeigt (überprüfen Sie mit disk show reliability-data), muss sie fehlerhaft bleiben und ersetzt werden.
  • Wenn keine Fehler vorhanden sind, führen Sie Folgendes aus:
    disk unfail <disk.id>
    
    Dadurch wird die Festplatte als Ersatzlaufwerk markiert.
  • Wenn ein Ersatzlaufwerk über eine ältere CA01/CA02-Firmware verfügt, muss diese manuell aktualisiert werden. Weitere Informationen finden Sie unter "Manuelles Aktualisieren von Ersatzlaufwerken" unter Weitere Informationen.

F: Warum ist es notwendig, die Aktivität in Laufwerksgruppe 2 (dg2) auch dann anzuhalten, wenn DDFS deaktiviert ist?
Ein: DDOS greift weiterhin auf EXT3-Mounts in dg2 zu. Das Aussetzen der I/O-Aktivität verhindert zusätzliche Ausfälle während des Upgrades.


F: So suchen Sie nach dg2/dgXX-Festplatten, die über ein ext3-Array verfügen und CA01/CA02-Firmware enthalten.
Ein: Für Systeme, die nicht zum Speicher migriert wurden, verfügt dg2 über die ext3-Arrays.

Suchen Sie im Autosupport nach den folgenden Zeilen. (fett formatiert)

  • DD_RAID Histogramm
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All (Dieser Befehl kann auch in der DD-CLI ausgeführt werden)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware (Dieser Befehl kann in der DD-CLI ausgeführt werden)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

Im obigen Beispiel verfügen die Laufwerke über CA01-Firmware. Es muss eine Supportanfrage erstellt werden, damit Dell Technologies beim Anhalten der Festplattengruppe (dg2) mit dem ext3-Array behilflich sein kann, bevor das MDU-Upgrade angewendet wird. 

Bei Systemen mit migriertem Storage ist das Array mit ext3 möglicherweise nicht auf dg2. Suchen Sie im Autosupport nach den folgenden Zeilen. (fett formatiert)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • DD_RAID Histogramm
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


Da die Laufwerke nicht über CA01- und CA02-Firmware verfügen, ist kein Supportfall erforderlich. Fahren Sie mit Schritt 3 der MDU-Upgradeschritte im Abschnitt „Lösung“ oben fort.

Produse afectate

Data Domain, DD9400 Appliance, DD9900 Appliance

Produse

DD OS 7.11
Proprietăți articol
Article Number: 000204252
Article Type: Solution
Ultima modificare: 16 dec. 2025
Version:  20
Găsiți răspunsuri la întrebările dvs. de la alți utilizatori Dell
Servicii de asistență
Verificați dacă dispozitivul dvs. este acoperit de serviciile de asistență.