Data Domain: Awaria wielu dysków podczas przełączania awaryjnego systemów HA | CA01 CA02 — problem z oprogramowaniem wewnętrznym
Podsumowanie: W Data Domain High Availability (HA) mogą wystąpić awarie dysków podczas przełączania awaryjnego HA ze względu na znany problem z oprogramowaniem wewnętrznym dysku. W przypadku niektórych systemów system plików może nie uruchomić się po przełączeniu awaryjnym lub ponownym uruchomieniu. ...
Objawy
Awaria elementu jest ograniczona do dysków o pojemności 8 TB z oprogramowaniem wewnętrznym w wersjach CA01 i CA02. Zazwyczaj dotyczy wielu grup RAID (grup dysków). Degradacja może być pojedyncza (jedna awaria) lub podwójna (awaria dwóch dysków).
Systemy, które nie uruchamiają się ponownie, napotykają przerwę w działaniu systemu plików, ale powinny same wrócić do normalnej pracy. Trwa lub oczekuje na odbudowę wielu dysków. W przypadku systemów, które uruchamiają się ponownie, wymuszane jest przełączanie awaryjne, co może spowodować zablokowanie systemu plików podczas uruchamiania.
Dotyczy:
- tylko modeli DD9400 i DD9900
- dysku twardego o pojemności 8 TB w zewnętrznych obudowach pamięci masowej z oprogramowaniem wewnętrznym (FW) w wersji CA01 lub CA02
Objawy awarii dysku:
- Raport dzienników dysku
sense key 4/0x29/0xcdpodczas wykonywania SCSI WRITEcdb 0x8a,Błąd jednego polecenia zapisu powoduje awarię dysku przez moduł DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- DD_RAID powoduje awarię dysków z powodu błędów „WRITE I/O”.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
Objawy braku możliwości uruchomienia DDFS:
- Cala
ddfs.info, poniższe komunikaty dotyczą długiego czasu uruchamiania DDFS. Nie postępuje, dopóki proces DDFS nie zostanie zakończony, co wymusza przejście w tryb przełączenia awaryjnego na węzeł równorzędny.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====
09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrubPrzyczyna
Rozwiązanie
Rozwiązanie:
- Naprawione wersje DDOS: DDOS 7.11.x, 7.10.1.0 i 7.7.5.1 i nowsze mają wbudowane oprogramowanie wewnętrzne CA04.
- Uaktualnij do nowszej wersji DDOS
- Minimalnie zakłócające uaktualnienie (MDU) jest dostępne dla wszystkich innych wersji DDOS 7.x.
- Łącze do MDU: Przeczytaj + Pobierz: Pakiet minimalnie destrukcyjnego uaktualnienia (MDU) oprogramowania wewnętrznego dysku twardego DDOS 7.X — listopad 2022 r. (zaloguj się jako zarejestrowany użytkownik Dell Support wymaga wyświetlenia dokumentu)
-
Stosowanie pakietu MDU:
- Połącz się z aktywnym węzłem HA. Aktualizacja nie działa z węzła pasywnego lub rezerwowego.
- Zaplanuj przerwę z użytkownikiem, ponieważ DDFS musi być wyłączony podczas aktualizacji oprogramowania wewnętrznego. Uruchom następujące polecenia, aby sprawdzić bieżące alerty i rozwiązać je w razie potrzeby. Zatrzymaj proces czyszczenia danych, jeśli jest uruchomiony. Wyłącz system plików.
# alerts show current# filesys clean status# filesys clean stop# filesys disable - Sprawdź autopomoc dla dysków CA01/CA02, które należą do >=dg2 w przypadku systemów, które nie przeszły migracji pamięci masowej. W przypadku systemów, które przeszły migrację pamięci masowej, grupa dysków z macierzami ext3 może nie być grupą dg2.
Wyszukaj ext3. Wyświetlany jest DD_RAID histogram dla dgXX, gdzie XX jest numerem DG. Przykład w sekcji „Informacje dodatkowe” poniżej. Jeśli dyski dg2/dgXX mają oprogramowanie wewnętrzne CA01/C02, macierz musi zostać tymczasowo wstrzymana na czas procesu uaktualniania MDU. Niewykonanie tej czynności może spowodować kolejną awarię, jeśli cała aktywność we/wy w grupie dysków nie zostanie zawieszona. Otwórz zgłoszenie serwisowe, aby uzyskać pomoc dotyczącą wstrzymywania grupy dysków. Jeśli dg2/dgXX nie zawiera dysków CA01/CA02, zgłoszenie serwisowe nie jest konieczne. Przejdź do kroku 4. - Prześlij plik
drive-firmware-CA04.rpmw interfejsie użytkownika DD System Manager. - Uaktualnij dyski. Uruchom następujące polecenie i poczekaj na jego zakończenie.
# system upgrade start drive-firmware-CA04.rpm" - Poczekaj ~10 minut.
- Sprawdź, czy wszystkie dyski są uaktualnione. Jeśli dyski nadal są wyświetlane z oprogramowaniem wewnętrznym CA01/CA02, powtórz kroki 5 i 6.
# disk show hardware - Sprawdź aktualny stan dysku. W przypadku awarii kilku dysków skontaktuj się z pomocą techniczną, aby uzyskać wsparcie. W przypadku awarii pojedynczego dysku sprawdź historię błędów. Jeśli nie ma błędów, przywróć dysk.
# disk unfail <disk.id> - Zweryfikuj alerty i włącz DDFS.
# alerts show current# filesys enable
Obejście problemu
- W przypadku ponownego uruchomienia lub przełączenia awaryjnego:
- DD_RAID nie można przywrócić uszkodzonych dysków.
- Umożliwia ukończenie tradycyjnej odbudowy dysków opartej na parzystości.
- Wyłącz GC do momentu zakończenia wszystkich odbudowy.
- Jeśli system plików nie uruchamia się, należy zapoznać się z DDFS TSE.
- Jeśli ponowne uruchomienie lub przełączenie awaryjne NIE nastąpiło:
- DD_RAID TSE może ręcznie przywrócić dyski po awarii przy użyciu
dd_raidtool. - Należy wyłączyć i włączyć uszkodzone gniazda dysków (skontaktuj się z działem pomocy technicznej firmy Dell).
- Zezwalaj na ukończenie odbudowy ponad 50% przed przełączeniem na rekonstrukcję po awarii.
- Po odbudowaniu dyski mogą być "nieprzerwane", jeśli ich zasilanie zostało wyłączone i włączone.
- DD_RAID TSE może ręcznie przywrócić dyski po awarii przy użyciu
Dodatkowe informacje
Najczęściej zadawane pytania
Pytanie: Czy aktualizację oprogramowania wewnętrznego można przeprowadzić, gdy system plików Data Domain jest w trybie online?
A: Nie. Podczas uaktualniania oprogramowania wewnętrznego należy wyłączyć system DDFS.
Pytanie: Czy po zainstalowaniu aktualizacji oprogramowania wewnętrznego wymagane jest ponowne uruchomienie systemu?
A: Nie. Ponowne uruchomienie nie jest wymagane.
Pytanie: Czy oprogramowanie wewnętrzne można zastosować na węźle pasywnym?
A: Nie. Aktualizację należy przeprowadzić tylko w aktywnym węźle.
Pytanie: Jak długo trwa aktualizacja oprogramowania wewnętrznego dla 180–240 dysków (4 półki DS60)?
A: Uaktualnienie przebiega w trybie równoległym i zazwyczaj trwa 10–15 minut, pod warunkiem że nie ma problemów.
Pytanie: Czy jeśli niektóre dyski nie zostaną zaktualizowane, system automatycznie ponowi próbę aktualizacji?
A: Nie. Aktualizację należy przeprowadzić ponownie ręcznie lub powtórzyć dla pozostałych dysków. Ręczne czynności aktualizacji można znaleźć w sekcji "Dodatkowe informacje".
Pytanie: Czy poprawkę oprogramowania wewnętrznego należy zastosować również w systemach Data Domain innych niż HA?
A: Tak. Zaleca się zastosowanie poprawki drive-firmware-CA04.RPM do wszystkich systemów z dyskami o pojemności 8 TB ze starszym oprogramowaniem wewnętrznym.
Pytanie: Czy jeśli dysk ulegnie awarii podczas aktualizacji, można go odzyskać?
A:
- Jeśli dysk pokazuje historię błędów (sprawdź za pomocą
disk show reliability-data), musi pozostać uszkodzony i zostać wymieniony. - Jeśli nie ma żadnych błędów, uruchom polecenie:
Spowoduje to oznaczenie dysku jako zapasowego.disk unfail <disk.id> - Jeśli nowy dysk ma starsze oprogramowanie wewnętrzne CA01/CA02, należy je zaktualizować ręcznie. Zobacz sekcję "Jak ręcznie zaktualizować nowe dyski" w sekcji Informacje dodatkowe.
Pytanie: Dlaczego konieczne jest zawieszenie aktywności w grupie dysków 2 (dg2) nawet wtedy, gdy DDFS jest wyłączony?
A: DDOS nadal uzyskuje dostęp do montowań EXT3 w dg2. Wstrzymanie aktywności we/wy zapobiega dodatkowym awariom podczas uaktualniania.
Pytanie: Jak sprawdzić dyski dg2/dgXX z macierzą ext3 i oprogramowaniem wewnętrznym CA01/CA02.
A: W przypadku systemów bez migracji pamięci masowej grupa dg2 ma macierze ext3.
Wyszukaj w autopomocy następujące wiersze. (Pogrubioną czcionką)
- DD_RAID Histogram
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All (To polecenie można też uruchomić w wierszu poleceń DD)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB
2.37-2.39, 2.49-2.50
- Disk Show Hardware (To polecenie można też uruchomić w wierszu poleceń DD)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919
2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919
2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919
2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919
2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919
2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919
2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919
2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919
2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919
2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919
2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919
2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919
2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919
2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919
2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
W powyższym przykładzie dyski mają oprogramowanie wewnętrzne CA01. Zgłoszenie do pomocy technicznej musi zostać otwarte, aby firma Dell Technologies mogła pomóc w wstrzymaniu grupy dysków (dg2) zawierającej macierz ext3 przed zastosowaniem uaktualnienia MDU.
W przypadku systemów pamięci masowej podlegających migracji macierzą zawierająca ext3 może nie być dg2. Wyszukaj w autopomocy następujące wiersze. (Pogrubioną czcionką)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
## Feature Shelf Model Capacity Type State Expiration Date Note
-- --------------- ------------ ----------- --------- ------ --------------- ----
1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a
-- --------------- ------------ ----------- --------- ------ --------------- ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
## Feature Count Type State Expiration Date Note
-- ---------------------------------------- ----- ---------- ------ --------------- ---------------
1 REPLICATION 1 permanent active n/a
2 VTL 1 permanent active n/a
3 DDBOOST 1 permanent active n/a
4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a
5 ENCRYPTION 1 permanent active n/a
6 I/OS 1 permanent active n/a
7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a
8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20
-- ---------------------------------------- ----- ---------- ------ --------------- ---------------
License file last modified at : 2022/08/29 11:02:13.
- DD_RAID Histogram
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB
6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785
6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785
6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785
6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785
6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785
6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785
6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785
6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785
6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785
6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785
6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785
6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785
6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785
6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785
6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
Ponieważ dyski nie mają oprogramowania wewnętrznego CA01 i CA02, zgłoszenie serwisowe nie jest wymagane. Przejdź do kroku 3 uaktualnienia MDU w sekcji „Rozwiązanie” powyżej.