Data Domain: Awaria wielu dysków podczas przełączania awaryjnego systemów HA | CA01 CA02 — problem z oprogramowaniem wewnętrznym
Summary: W Data Domain High Availability (HA) mogą wystąpić awarie dysków podczas przełączania awaryjnego HA ze względu na znany problem z oprogramowaniem wewnętrznym dysku. W przypadku niektórych systemów system plików może nie uruchomić się po przełączeniu awaryjnym lub ponownym uruchomieniu. ...
Symptoms
Awaria elementu jest ograniczona do dysków o pojemności 8 TB z oprogramowaniem wewnętrznym w wersjach CA01 i CA02. Zazwyczaj dotyczy wielu grup RAID (grup dysków). Degradacja może być pojedyncza (jedna awaria) lub podwójna (awaria dwóch dysków).
Systemy, które nie uruchamiają się ponownie, napotykają przerwę w systemie plików, ale powinny same powrócić do działania z trwającymi i oczekującymi operacjami odbudowy wielu dysków. W przypadku systemów, które uruchamiają się ponownie, wymuszane jest przełączanie awaryjne, co może spowodować zablokowanie systemu plików podczas uruchamiania.
Dotyczy:
- tylko modeli DD9400 i DD9900
- dysku twardego o pojemności 8 TB w zewnętrznych obudowach pamięci masowej z oprogramowaniem wewnętrznym (FW) w wersji CA01 lub CA02
Rozwiązanie:
- Naprawione wersje DDOS: DDOS 7.11.x, 7.10.1.0 i 7.7.5.1 i nowsze mają wbudowane oprogramowanie wewnętrzne CA04.
- Minimalnie zakłócające uaktualnienie (MDU) jest dostępne dla wszystkich innych wersji DDOS 7.x.
- Łącze do MDU: Przeczytaj + Pobierz: Pakiet minimalnie destrukcyjnego uaktualnienia (MDU) oprogramowania wewnętrznego dysku twardego DDOS 7.X — listopad 2022 r. (zaloguj się jako zarejestrowany użytkownik Dell Support wymaga wyświetlenia dokumentu)
Uwaga: System plików powinien być wyłączony podczas stosowania MDU.
Objawy awarii dysku:
- Dzienniki dysków zgłaszają sense key
4/0x29/0xcdpodczas wykonywania SCSI WRITEcdb 0x8a, błąd jednego polecenia zapisu powoduje awarię dysku przez moduł DD_RAID.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- DD_RAID powoduje awarię dysków z powodu błędów „WRITE I/O”.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
Objawy braku możliwości uruchomienia DDFS:
- W ddfs.info poniższe komunikaty są wyświetlane przez długi czas podczas uruchamiania DDFS. Nie postępuje, dopóki proces DDFS nie zostanie zakończony, co wymusza przejście w tryb przełączenia awaryjnego na węzeł równorzędny.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) ===== 09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) ===== 09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub ... 09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
Cause
Główna przyczyna awarii dysku:
bufor pamięci podręcznej DRAM dysku napotyka fałszywy błąd integralności danych przy obciążeniu roboczym losowych we/wy. Producent dysku udostępnił poprawkę oprogramowania wewnętrznego, aby rozwiązać ten problem.
Resolution
Obejście problemu
W przypadku ponownego uruchomienia lub przełączenia awaryjnego możliwość DD_RAID na „failback” uszkodzone dyski nie jest opcją. W takim przypadku należy zezwolić na zakończenie tradycyjnej odbudowy (parzystości). Wyłącz GC do momentu zakończenia wszystkich operacji odbudowy dysków. Jeśli system plików ma problem z uruchomieniem po ponownym uruchomieniu lub przełączeniu awaryjnym, przed zakończeniem procesu DDFS należy skonsultować się z DDFS TSE.
Jeśli nie nastąpiło ponowne uruchomienie lub przełączenie awaryjne, DD_RAID może „failback” odbudować uszkodzone dyski. Jest to ręczna operacja wykorzystująca „dd_raidtool” w powłoce bash. Przed zainicjowaniem "powrotu awaryjnego" dysków, które uległy awarii, należy wyłączyć i włączyć zasilanie; Aby to zrobić, skontaktuj się z działem pomocy technicznej firmy Dell .
Opierając się na doświadczeniu praktycznym, zezwól na ukończenie odbudowy dysku w ponad 50% zamiast przełączać się na rekonstrukcję po awarii.
Po zakończeniu wszystkich operacji odbudowy dyski, które nadal ulegają awarii, mogą być „unfailed”, jeśli ich odpowiednie gniazda zostały wyłączone i włączone.
Rozwiązanie
Oprogramowanie wewnętrzne dysku w wersji CA04 jest teraz dostępne jako poprawka MDU w postaci pakietu aktualizacji DDOS. Skontaktuj się z pomocą techniczną, aby uzyskać kopię RPM. Znajduje się w /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm.
NAJCZĘŚCIEJ ZADAWANE PYTANIA
- Czy uaktualnienie można przeprowadzić za pomocą systemu plików Data Domain w trybie online?
Nie, DDFS musi być w trybie offline|wyłączonym podczas uaktualniania oprogramowania wewnętrznego. - Czy wymagane jest ponowne uruchomienie komputera?
Nie, ponowne uruchomienie nie jest wymagane. - Czy oprogramowanie wewnętrzne można zastosować w węźle pasywnym?
Nie, nie można go zastosować w węźle pasywnym. Można je uruchomić tylko w aktywnym węźle. - Jak długo trwa uaktualnianie oprogramowania wewnętrznego dysku wewnętrznego CA04.RPM dla dysków 180–240 (4 DS60)?
Aktualizacja przebiega w trybie równoległym. Jeśli nie występują problemy, uaktualnianie trwa 10–15 minut. - Jeśli nie uaktualniono wszystkich dysków, czy system automatycznie uaktualni dyski inne niż CA04?
Nie, uaktualnienie trzeba przeprowadzić ponownie. Można to też zrobić ręcznie. Patrz „Informacje dodatkowe”. - Czy muszą zastosować tę poprawkę oprogramowania wewnętrznego dysku CA04.RPM również na pozostałych systemach DD innych niż HA? Mogą one mieć dyski również ze starszym oprogramowaniem wewnętrznym.
Zalecane jest też zastosowanie uaktualnienia oprogramowania wewnętrznego dysku CA04.RPM w przypadku dysków DD innych niż HA o pojemności 8 TB. - Jeśli dysk ulegnie awarii podczas aktualizacji, czy można go naprawić?
Jeśli dysk ulegnie awarii przed aktualizacją oprogramowania wewnętrznego lub w jej trakcie, sprawdź historię błędów (np. "disk show reliability-data"). Jeśli dysk ma jakiekolwiek błędy, pozostanie w stanie awarii i należy go wymienić. Jeśli na dysku nie ma żadnych błędów, uruchom polecenie „disk unfail <disk.id>”, aby usunąć awarię dysku i zamienić go na dysk zapasowy. Jeśli uszkodzony dysk zostanie wymieniony na dysk ze starszym oprogramowaniem wewnętrznym CA01/CA02, należy je uaktualnić ręcznie. Patrz „Ręczne uaktualnianie dysków zapasowych” w sekcji dodatkowej poniżej. - Dlaczego konieczne jest zawieszenie aktywności w grupie dysków 2 (dg2), nawet jeśli DDFS nie działa?
DDOS nadal ma dostęp do zamontowań EXT3, które istnieją w dg2.
Stosowanie pakietu MDU:
- Połącz się z aktywnym węzłem HA. Aktualizacja nie działa z węzła pasywnego lub rezerwowego.
- Zaplanuj przerwę z użytkownikiem, ponieważ DDFS musi być wyłączony podczas aktualizacji oprogramowania wewnętrznego. Uruchom następujące polecenia, aby sprawdzić bieżące alerty i rozwiązać je w razie potrzeby. Zatrzymaj proces czyszczenia danych, jeśli jest uruchomiony. Wyłącz system plików.
# alerts show current# filesys clean status# filesys clean stop# filesys disable - Sprawdź autopomoc dla dysków CA01/CA02, które należą do >=dg2 w przypadku systemów, które nie przeszły migracji pamięci masowej. W przypadku systemów, które przeszły migrację pamięci masowej, grupa dysków z macierzami ext3 może nie być grupą dg2.
Wyszukaj ext3. Wyświetlany jest DD_RAID histogram dla dgXX, gdzie XX jest numerem DG. Przykład w sekcji „Informacje dodatkowe” poniżej. Jeśli dyski dg2/dgXX mają oprogramowanie wewnętrzne CA01/C02, macierz musi zostać tymczasowo wstrzymana na czas procesu uaktualniania MDU. Niewykonanie tej czynności może spowodować kolejną awarię, jeśli cała aktywność we/wy w grupie dysków nie zostanie zawieszona. Otwórz zgłoszenie serwisowe, aby uzyskać pomoc dotyczącą wstrzymywania grupy dysków. Jeśli dg2/dgXX nie zawiera dysków CA01/CA02, zgłoszenie serwisowe nie jest konieczne. Przejdź do kroku 4. - Prześlij plik
drive-firmware-CA04.rpmw interfejsie użytkownika DD System Manager. - Uaktualnij dyski. Uruchom następujące polecenie i poczekaj na jego zakończenie.
# system upgrade start drive-firmware-CA04.rpm" - Poczekaj ~10 minut.
- Sprawdź, czy wszystkie dyski są uaktualnione. Jeśli dyski nadal są wyświetlane z oprogramowaniem wewnętrznym CA01/CA02, powtórz kroki 5 i 6.
# disk show hardware - Sprawdź aktualny stan dysku. W przypadku awarii kilku dysków skontaktuj się z pomocą techniczną, aby uzyskać wsparcie. W przypadku awarii pojedynczego dysku sprawdź historię błędów. Jeśli nie ma błędów, przywróć dysk.
# disk unfail <disk.id> - Zweryfikuj alerty i włącz DDFS.
# alerts show current# filesys enable
Additional Information
Sprawdzanie dysków dg2/dgXX z macierzą ext3 i oprogramowaniem wewnętrznym CA01/CA02.
W przypadku systemów bez migracji pamięci masowej dyski dg2 mają macierze ext3.
Wyszukaj w autopomocy następujące wiersze. (Pogrubioną czcionką)
- DD_RAID Histogram
DD_RAID Histogram for dg2 0xafc318cb033dc226 DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All (To polecenie można też uruchomić w wierszu poleceń DD)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB 2.37-2.39, 2.49-2.50
- Disk Show Hardware (To polecenie można też uruchomić w wierszu poleceń DD)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919 2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919 2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919 2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919 2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919 2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919 2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919 2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919 2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919 2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919 2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919 2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919 2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919 2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919 2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
W powyższym przykładzie dyski mają oprogramowanie wewnętrzne CA01. Zgłoszenie do pomocy technicznej musi zostać otwarte, aby firma Dell Technologies mogła pomóc w wstrzymaniu grupy dysków (dg2) zawierającej macierz ext3 przed zastosowaniem uaktualnienia MDU.
W przypadku systemów pamięci masowej podlegających migracji macierzą zawierająca ext3 może nie być dg2. Wyszukaj w autopomocy następujące wiersze. (Pogrubioną czcionką)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses -------- System locking-id: APX00123456789 Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode Capacity licenses: ## Feature Shelf Model Capacity Type State Expiration Date Note -- --------------- ------------ ----------- --------- ------ --------------- ---- 1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a -- --------------- ------------ ----------- --------- ------ --------------- ---- Licensed Active Tier capacity: 1396.98 TiB* * Depending on the hardware platform, usable filesystem capacities may vary. Feature licenses: ## Feature Count Type State Expiration Date Note -- ---------------------------------------- ----- ---------- ------ --------------- --------------- 1 REPLICATION 1 permanent active n/a 2 VTL 1 permanent active n/a 3 DDBOOST 1 permanent active n/a 4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a 5 ENCRYPTION 1 permanent active n/a 6 I/OS 1 permanent active n/a 7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a 8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20 -- ---------------------------------------- ----- ---------- ------ --------------- --------------- License file last modified at : 2022/08/29 11:02:13.
- DD_RAID Histogram
DD_RAID Histogram for dg23 0x323d6b863ae21b8f DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB 6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785 6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785 6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785 6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785 6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785 6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785 6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785 6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
Ponieważ dyski nie mają oprogramowania wewnętrznego CA01 i CA02, zgłoszenie serwisowe nie jest wymagane. Przejdź do kroku 3 uaktualnienia MDU w sekcji „Rozwiązanie” powyżej.