Data Domain: Awaria wielu dysków podczas przełączania awaryjnego systemów HA | CA01 CA02 — problem z oprogramowaniem wewnętrznym

Table of Contents

Detailed Article

Symptoms

Cause

Resolution

Additional Info

Affected Products

Provide Feedback

Summary: W Data Domain High Availability (HA) mogą wystąpić awarie dysków podczas przełączania awaryjnego HA ze względu na znany problem z oprogramowaniem wewnętrznym dysku. W przypadku niektórych systemów system plików może nie uruchomić się po przełączeniu awaryjnym lub ponownym uruchomieniu. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

Awaria elementu jest ograniczona do dysków o pojemności 8 TB z oprogramowaniem wewnętrznym w wersjach CA01 i CA02. Zazwyczaj dotyczy wielu grup RAID (grup dysków). Degradacja może być pojedyncza (jedna awaria) lub podwójna (awaria dwóch dysków).

Systemy, które nie uruchamiają się ponownie, napotykają przerwę w systemie plików, ale powinny same powrócić do działania z trwającymi i oczekującymi operacjami odbudowy wielu dysków. W przypadku systemów, które uruchamiają się ponownie, wymuszane jest przełączanie awaryjne, co może spowodować zablokowanie systemu plików podczas uruchamiania.

Dotyczy:

tylko modeli DD9400 i DD9900
dysku twardego o pojemności 8 TB w zewnętrznych obudowach pamięci masowej z oprogramowaniem wewnętrznym (FW) w wersji CA01 lub CA02

Rozwiązanie:

Naprawione wersje DDOS: DDOS 7.11.x, 7.10.1.0 i 7.7.5.1 i nowsze mają wbudowane oprogramowanie wewnętrzne CA04.
Minimalnie zakłócające uaktualnienie (MDU) jest dostępne dla wszystkich innych wersji DDOS 7.x.
- Łącze do MDU: Przeczytaj + Pobierz: Pakiet minimalnie destrukcyjnego uaktualnienia (MDU) oprogramowania wewnętrznego dysku twardego DDOS 7.X — listopad 2022 r. (zaloguj się jako zarejestrowany użytkownik Dell Support wymaga wyświetlenia dokumentu)

Uwaga: System plików powinien być wyłączony podczas stosowania MDU.

Objawy awarii dysku:

Dzienniki dysków zgłaszają sense key 4/0x29/0xcd podczas wykonywania SCSI WRITE cdb 0x8a, błąd jednego polecenia zapisu powoduje awarię dysku przez moduł DD_RAID.

Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able

DD_RAID powoduje awarię dysków z powodu błędów „WRITE I/O”.

Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

Objawy braku możliwości uruchomienia DDFS:

W ddfs.info poniższe komunikaty są wyświetlane przez długi czas podczas uruchamiania DDFS. Nie postępuje, dopóki proces DDFS nie zostanie zakończony, co wymusza przejście w tryb przełączenia awaryjnego na węzeł równorzędny.

09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Cause

Główna przyczyna awarii dysku:
bufor pamięci podręcznej DRAM dysku napotyka fałszywy błąd integralności danych przy obciążeniu roboczym losowych we/wy. Producent dysku udostępnił poprawkę oprogramowania wewnętrznego, aby rozwiązać ten problem.

Resolution

Obejście problemu

W przypadku ponownego uruchomienia lub przełączenia awaryjnego możliwość DD_RAID na „failback” uszkodzone dyski nie jest opcją. W takim przypadku należy zezwolić na zakończenie tradycyjnej odbudowy (parzystości). Wyłącz GC do momentu zakończenia wszystkich operacji odbudowy dysków. Jeśli system plików ma problem z uruchomieniem po ponownym uruchomieniu lub przełączeniu awaryjnym, przed zakończeniem procesu DDFS należy skonsultować się z DDFS TSE.

Jeśli nie nastąpiło ponowne uruchomienie lub przełączenie awaryjne, DD_RAID może „failback” odbudować uszkodzone dyski. Jest to ręczna operacja wykorzystująca „dd_raidtool” w powłoce bash. Przed zainicjowaniem "powrotu awaryjnego" dysków, które uległy awarii, należy wyłączyć i włączyć zasilanie; Aby to zrobić, skontaktuj się z działem pomocy technicznej firmy Dell .

Opierając się na doświadczeniu praktycznym, zezwól na ukończenie odbudowy dysku w ponad 50% zamiast przełączać się na rekonstrukcję po awarii.

Po zakończeniu wszystkich operacji odbudowy dyski, które nadal ulegają awarii, mogą być „unfailed”, jeśli ich odpowiednie gniazda zostały wyłączone i włączone.

Rozwiązanie

Oprogramowanie wewnętrzne dysku w wersji CA04 jest teraz dostępne jako poprawka MDU w postaci pakietu aktualizacji DDOS. Skontaktuj się z pomocą techniczną, aby uzyskać kopię RPM. Znajduje się w /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.

NAJCZĘŚCIEJ ZADAWANE PYTANIA

Czy uaktualnienie można przeprowadzić za pomocą systemu plików Data Domain w trybie online?
Nie, DDFS musi być w trybie offline|wyłączonym podczas uaktualniania oprogramowania wewnętrznego.
Czy wymagane jest ponowne uruchomienie komputera?
Nie, ponowne uruchomienie nie jest wymagane.
Czy oprogramowanie wewnętrzne można zastosować w węźle pasywnym?
Nie, nie można go zastosować w węźle pasywnym. Można je uruchomić tylko w aktywnym węźle.
Jak długo trwa uaktualnianie oprogramowania wewnętrznego dysku wewnętrznego CA04.RPM dla dysków 180–240 (4 DS60)?
Aktualizacja przebiega w trybie równoległym. Jeśli nie występują problemy, uaktualnianie trwa 10–15 minut.
Jeśli nie uaktualniono wszystkich dysków, czy system automatycznie uaktualni dyski inne niż CA04?
Nie, uaktualnienie trzeba przeprowadzić ponownie. Można to też zrobić ręcznie. Patrz „Informacje dodatkowe”.
Czy muszą zastosować tę poprawkę oprogramowania wewnętrznego dysku CA04.RPM również na pozostałych systemach DD innych niż HA? Mogą one mieć dyski również ze starszym oprogramowaniem wewnętrznym.
Zalecane jest też zastosowanie uaktualnienia oprogramowania wewnętrznego dysku CA04.RPM w przypadku dysków DD innych niż HA o pojemności 8 TB.
Jeśli dysk ulegnie awarii podczas aktualizacji, czy można go naprawić?
Jeśli dysk ulegnie awarii przed aktualizacją oprogramowania wewnętrznego lub w jej trakcie, sprawdź historię błędów (np. "disk show reliability-data"). Jeśli dysk ma jakiekolwiek błędy, pozostanie w stanie awarii i należy go wymienić. Jeśli na dysku nie ma żadnych błędów, uruchom polecenie „disk unfail <disk.id>”, aby usunąć awarię dysku i zamienić go na dysk zapasowy. Jeśli uszkodzony dysk zostanie wymieniony na dysk ze starszym oprogramowaniem wewnętrznym CA01/CA02, należy je uaktualnić ręcznie. Patrz „Ręczne uaktualnianie dysków zapasowych” w sekcji dodatkowej poniżej.
Dlaczego konieczne jest zawieszenie aktywności w grupie dysków 2 (dg2), nawet jeśli DDFS nie działa?
DDOS nadal ma dostęp do zamontowań EXT3, które istnieją w dg2.

Stosowanie pakietu MDU:

Połącz się z aktywnym węzłem HA. Aktualizacja nie działa z węzła pasywnego lub rezerwowego.
Zaplanuj przerwę z użytkownikiem, ponieważ DDFS musi być wyłączony podczas aktualizacji oprogramowania wewnętrznego. Uruchom następujące polecenia, aby sprawdzić bieżące alerty i rozwiązać je w razie potrzeby. Zatrzymaj proces czyszczenia danych, jeśli jest uruchomiony. Wyłącz system plików.
# alerts show current
# filesys clean status
# filesys clean stop
# filesys disable
Sprawdź autopomoc dla dysków CA01/CA02, które należą do >=dg2 w przypadku systemów, które nie przeszły migracji pamięci masowej. W przypadku systemów, które przeszły migrację pamięci masowej, grupa dysków z macierzami ext3 może nie być grupą dg2.
Wyszukaj ext3. Wyświetlany jest DD_RAID histogram dla dgXX, gdzie XX jest numerem DG. Przykład w sekcji „Informacje dodatkowe” poniżej. Jeśli dyski dg2/dgXX mają oprogramowanie wewnętrzne CA01/C02, macierz musi zostać tymczasowo wstrzymana na czas procesu uaktualniania MDU. Niewykonanie tej czynności może spowodować kolejną awarię, jeśli cała aktywność we/wy w grupie dysków nie zostanie zawieszona. Otwórz zgłoszenie serwisowe, aby uzyskać pomoc dotyczącą wstrzymywania grupy dysków. Jeśli dg2/dgXX nie zawiera dysków CA01/CA02, zgłoszenie serwisowe nie jest konieczne. Przejdź do kroku 4.
Prześlij plik drive-firmware-CA04.rpm w interfejsie użytkownika DD System Manager.
Uaktualnij dyski. Uruchom następujące polecenie i poczekaj na jego zakończenie.
# system upgrade start drive-firmware-CA04.rpm"
Poczekaj ~10 minut.
Sprawdź, czy wszystkie dyski są uaktualnione. Jeśli dyski nadal są wyświetlane z oprogramowaniem wewnętrznym CA01/CA02, powtórz kroki 5 i 6.
# disk show hardware
Sprawdź aktualny stan dysku. W przypadku awarii kilku dysków skontaktuj się z pomocą techniczną, aby uzyskać wsparcie. W przypadku awarii pojedynczego dysku sprawdź historię błędów. Jeśli nie ma błędów, przywróć dysk.
# disk unfail <disk.id>
Zweryfikuj alerty i włącz DDFS.
# alerts show current
# filesys enable

Additional Information

Sprawdzanie dysków dg2/dgXX z macierzą ext3 i oprogramowaniem wewnętrznym CA01/CA02.
W przypadku systemów bez migracji pamięci masowej dyski dg2 mają macierze ext3.

Wyszukaj w autopomocy następujące wiersze. (Pogrubioną czcionką)

DD_RAID Histogram

DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]

Storage Show All (To polecenie można też uruchomić w wierszu poleceń DD)

dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50

Disk Show Hardware (To polecenie można też uruchomić w wierszu poleceń DD)

2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

W powyższym przykładzie dyski mają oprogramowanie wewnętrzne CA01. Zgłoszenie do pomocy technicznej musi zostać otwarte, aby firma Dell Technologies mogła pomóc w wstrzymaniu grupy dysków (dg2) zawierającej macierz ext3 przed zastosowaniem uaktualnienia MDU.

W przypadku systemów pamięci masowej podlegających migracji macierzą zawierająca ext3 może nie być dg2. Wyszukaj w autopomocy następujące wiersze. (Pogrubioną czcionką)

Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.

DD_RAID Histogram

DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]

Storage Show All (This command can be ran on the DD CLI)

dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

Disk Show Hardware (This command can be ran on the DD CLI)

6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785

Ponieważ dyski nie mają oprogramowania wewnętrznego CA01 i CA02, zgłoszenie serwisowe nie jest wymagane. Przejdź do kroku 3 uaktualnienia MDU w sekcji „Rozwiązanie” powyżej.

Affected Products

Data Domain, DD9400 Appliance, DD9900 Appliance

Products

DD OS 7.11

Article Number: 000204252

Article Type: Solution

Last Modified: 30 Oct 2025

Version: 19

Check if your device is covered by Support Services.

Data Domain: Awaria wielu dysków podczas przełączania awaryjnego systemów HA | CA01 CA02 — problem z oprogramowaniem wewnętrznym

Symptoms

Cause

Resolution

Obejście problemu

Rozwiązanie

NAJCZĘŚCIEJ ZADAWANE PYTANIA

Stosowanie pakietu MDU:

Additional Information

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services