Data Domain: Awaria wielu dysków podczas przełączania awaryjnego systemów HA | CA01 CA02 — problem z oprogramowaniem wewnętrznym

Podsumowanie: W Data Domain High Availability (HA) mogą wystąpić awarie dysków podczas przełączania awaryjnego HA ze względu na znany problem z oprogramowaniem wewnętrznym dysku. W przypadku niektórych systemów system plików może nie uruchomić się po przełączeniu awaryjnym lub ponownym uruchomieniu. ...

Ten artykuł dotyczy Ten artykuł nie dotyczy Ten artykuł nie jest powiązany z żadnym konkretnym produktem. Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.

Objawy

Awaria elementu jest ograniczona do dysków o pojemności 8 TB z oprogramowaniem wewnętrznym w wersjach CA01 i CA02. Zazwyczaj dotyczy wielu grup RAID (grup dysków). Degradacja może być pojedyncza (jedna awaria) lub podwójna (awaria dwóch dysków).

Systemy, które nie uruchamiają się ponownie, napotykają przerwę w działaniu systemu plików, ale powinny same wrócić do normalnej pracy. Trwa lub oczekuje na odbudowę wielu dysków. W przypadku systemów, które uruchamiają się ponownie, wymuszane jest przełączanie awaryjne, co może spowodować zablokowanie systemu plików podczas uruchamiania.

Dotyczy:

  • tylko modeli DD9400 i DD9900
  • dysku twardego o pojemności 8 TB w zewnętrznych obudowach pamięci masowej z oprogramowaniem wewnętrznym (FW) w wersji CA01 lub CA02

Objawy awarii dysku:

  • Raport dzienników dysku sense key 4/0x29/0xcd podczas wykonywania SCSI WRITE cdb 0x8a, Błąd jednego polecenia zapisu powoduje awarię dysku przez moduł DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • DD_RAID powoduje awarię dysków z powodu błędów „WRITE I/O”.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

Objawy braku możliwości uruchomienia DDFS:

  • Cala ddfs.info, poniższe komunikaty dotyczą długiego czasu uruchamiania DDFS. Nie postępuje, dopóki proces DDFS nie zostanie zakończony, co wymusza przejście w tryb przełączenia awaryjnego na węzeł równorzędny.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Przyczyna

Bufor pamięci podręcznej DRAM dysku napotyka błąd fałszywej integralności danych przy losowych obciążeniach we/wy. Spowoduje to awarię dysku.
Producent dysku udostępnił poprawkę oprogramowania wewnętrznego, aby rozwiązać ten problem.

Rozwiązanie

Rozwiązanie:

  • Naprawione wersje DDOS: DDOS 7.11.x, 7.10.1.0 i 7.7.5.1 i nowsze mają wbudowane oprogramowanie wewnętrzne CA04.
    • Uaktualnij do nowszej wersji DDOS
  • Minimalnie zakłócające uaktualnienie (MDU) jest dostępne dla wszystkich innych wersji DDOS 7.x.
    • Łącze do MDU: Przeczytaj + Pobierz: Pakiet minimalnie destrukcyjnego uaktualnienia (MDU) oprogramowania wewnętrznego dysku twardego DDOS 7.X — listopad 2022 r. (zaloguj się jako zarejestrowany użytkownik Dell Support wymaga wyświetlenia dokumentu)
    • Stosowanie pakietu MDU:

      1. Połącz się z aktywnym węzłem HA. Aktualizacja nie działa z węzła pasywnego lub rezerwowego.
      2. Zaplanuj przerwę z użytkownikiem, ponieważ DDFS musi być wyłączony podczas aktualizacji oprogramowania wewnętrznego. Uruchom następujące polecenia, aby sprawdzić bieżące alerty i rozwiązać je w razie potrzeby. Zatrzymaj proces czyszczenia danych, jeśli jest uruchomiony. Wyłącz system plików. 
                    # alerts show current
              # filesys clean status
              # filesys clean stop
              # filesys disable
      3. Sprawdź autopomoc dla dysków CA01/CA02, które należą do >=dg2 w przypadku systemów, które nie przeszły migracji pamięci masowej. W przypadku systemów, które przeszły migrację pamięci masowej, grupa dysków z macierzami ext3 może nie być grupą dg2. 
        Wyszukaj ext3. Wyświetlany jest DD_RAID histogram dla dgXX, gdzie XX jest numerem DG. Przykład w sekcji „Informacje dodatkowe” poniżej. Jeśli dyski dg2/dgXX mają oprogramowanie wewnętrzne CA01/C02, macierz musi zostać tymczasowo wstrzymana na czas procesu uaktualniania MDU. Niewykonanie tej czynności może spowodować kolejną awarię, jeśli cała aktywność we/wy w grupie dysków nie zostanie zawieszona. Otwórz zgłoszenie serwisowe, aby uzyskać pomoc dotyczącą wstrzymywania grupy dysków. Jeśli dg2/dgXX nie zawiera dysków CA01/CA02, zgłoszenie serwisowe nie jest konieczne. Przejdź do kroku 4.
      4. Prześlij plik drive-firmware-CA04.rpm w interfejsie użytkownika DD System Manager.
      5. Uaktualnij dyski. Uruchom następujące polecenie i poczekaj na jego zakończenie. 
                   # system upgrade start drive-firmware-CA04.rpm"
      6. Poczekaj ~10 minut.
      7. Sprawdź, czy wszystkie dyski są uaktualnione. Jeśli dyski nadal są wyświetlane z oprogramowaniem wewnętrznym CA01/CA02, powtórz kroki 5 i 6. 
                   # disk show hardware
      8. Sprawdź aktualny stan dysku. W przypadku awarii kilku dysków skontaktuj się z pomocą techniczną, aby uzyskać wsparcie. W przypadku awarii pojedynczego dysku sprawdź historię błędów. Jeśli nie ma błędów, przywróć dysk. 
                  # disk unfail <disk.id>
      9. Zweryfikuj alerty i włącz DDFS. 
                  # alerts show current
                  # filesys enable
Uwaga: System plików powinien być wyłączony podczas stosowania MDU.

Obejście problemu

  • W przypadku ponownego uruchomienia lub przełączenia awaryjnego:
    • DD_RAID nie można przywrócić uszkodzonych dysków.
    • Umożliwia ukończenie tradycyjnej odbudowy dysków opartej na parzystości.
    • Wyłącz GC do momentu zakończenia wszystkich odbudowy.
    • Jeśli system plików nie uruchamia się, należy zapoznać się z DDFS TSE.
  • Jeśli ponowne uruchomienie lub przełączenie awaryjne NIE nastąpiło:
    • DD_RAID TSE może ręcznie przywrócić dyski po awarii przy użyciu dd_raidtool.
    • Należy wyłączyć i włączyć uszkodzone gniazda dysków (skontaktuj się z działem pomocy technicznej firmy Dell).
    • Zezwalaj na ukończenie odbudowy ponad 50% przed przełączeniem na rekonstrukcję po awarii.
    • Po odbudowaniu dyski mogą być "nieprzerwane", jeśli ich zasilanie zostało wyłączone i włączone.

Dodatkowe informacje

Najczęściej zadawane pytania

Pytanie: Czy aktualizację oprogramowania wewnętrznego można przeprowadzić, gdy system plików Data Domain jest w trybie online?
A: Nie. Podczas uaktualniania oprogramowania wewnętrznego należy wyłączyć system DDFS.


Pytanie: Czy po zainstalowaniu aktualizacji oprogramowania wewnętrznego wymagane jest ponowne uruchomienie systemu?
A: Nie. Ponowne uruchomienie nie jest wymagane.


Pytanie: Czy oprogramowanie wewnętrzne można zastosować na węźle pasywnym?
A: Nie. Aktualizację należy przeprowadzić tylko w aktywnym węźle.


Pytanie: Jak długo trwa aktualizacja oprogramowania wewnętrznego dla 180–240 dysków (4 półki DS60)?
A: Uaktualnienie przebiega w trybie równoległym i zazwyczaj trwa 10–15 minut, pod warunkiem że nie ma problemów.


Pytanie: Czy jeśli niektóre dyski nie zostaną zaktualizowane, system automatycznie ponowi próbę aktualizacji?
A: Nie. Aktualizację należy przeprowadzić ponownie ręcznie lub powtórzyć dla pozostałych dysków. Ręczne czynności aktualizacji można znaleźć w sekcji "Dodatkowe informacje".


Pytanie: Czy poprawkę oprogramowania wewnętrznego należy zastosować również w systemach Data Domain innych niż HA?
A: Tak. Zaleca się zastosowanie poprawki drive-firmware-CA04.RPM do wszystkich systemów z dyskami o pojemności 8 TB ze starszym oprogramowaniem wewnętrznym.


Pytanie: Czy jeśli dysk ulegnie awarii podczas aktualizacji, można go odzyskać?
A:

  • Jeśli dysk pokazuje historię błędów (sprawdź za pomocą disk show reliability-data), musi pozostać uszkodzony i zostać wymieniony.
  • Jeśli nie ma żadnych błędów, uruchom polecenie:
    disk unfail <disk.id>
    
    Spowoduje to oznaczenie dysku jako zapasowego.
  • Jeśli nowy dysk ma starsze oprogramowanie wewnętrzne CA01/CA02, należy je zaktualizować ręcznie. Zobacz sekcję "Jak ręcznie zaktualizować nowe dyski" w sekcji Informacje dodatkowe.

Pytanie: Dlaczego konieczne jest zawieszenie aktywności w grupie dysków 2 (dg2) nawet wtedy, gdy DDFS jest wyłączony?
A: DDOS nadal uzyskuje dostęp do montowań EXT3 w dg2. Wstrzymanie aktywności we/wy zapobiega dodatkowym awariom podczas uaktualniania.


Pytanie: Jak sprawdzić dyski dg2/dgXX z macierzą ext3 i oprogramowaniem wewnętrznym CA01/CA02.
A: W przypadku systemów bez migracji pamięci masowej grupa dg2 ma macierze ext3.

Wyszukaj w autopomocy następujące wiersze. (Pogrubioną czcionką)

  • DD_RAID Histogram
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All (To polecenie można też uruchomić w wierszu poleceń DD)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware (To polecenie można też uruchomić w wierszu poleceń DD)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

W powyższym przykładzie dyski mają oprogramowanie wewnętrzne CA01. Zgłoszenie do pomocy technicznej musi zostać otwarte, aby firma Dell Technologies mogła pomóc w wstrzymaniu grupy dysków (dg2) zawierającej macierz ext3 przed zastosowaniem uaktualnienia MDU. 

W przypadku systemów pamięci masowej podlegających migracji macierzą zawierająca ext3 może nie być dg2. Wyszukaj w autopomocy następujące wiersze. (Pogrubioną czcionką)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • DD_RAID Histogram
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


Ponieważ dyski nie mają oprogramowania wewnętrznego CA01 i CA02, zgłoszenie serwisowe nie jest wymagane. Przejdź do kroku 3 uaktualnienia MDU w sekcji „Rozwiązanie” powyżej.

Produkty, których dotyczy problem

Data Domain, DD9400 Appliance, DD9900 Appliance

Produkty

DD OS 7.11
Właściwości artykułu
Numer artykułu: 000204252
Typ artykułu: Solution
Ostatnia modyfikacja: 16 gru 2025
Wersja:  20
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.