PowerScale: Problemy z rozszerzeniem partycji Var
Summary: Rozszerzenie partycji /var może powodować wyświetlanie komunikatów ostrzegawczych w narzędziu Isilon On-Cluster Analysis (IOCA). Problemy są związane z awarią węzła, która może wystąpić podczas wyjmowania kieszeni dysku w celu konserwacji. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Bieżący skrypt narzędzia Isilon On-Cluster Analysis (IOCA) generuje następujące ostrzeżenia związane z
Po uruchomieniu węzła przejrzyj
/var Partycji:
System Partition Free Space FAIL CRITICAL: The following nodes have /var mirrors of different sizes: 1-10 INFO: Please reference KB 000213248 (https://www.dell.com/support/kbdoc/000213248) for further information. INFO: For more information refer to KB article 000041465 found at https://www.dell.com/support/kbdoc/000041465.lub:
Mirror Status FAIL CRITICAL: The mirror pair for var1 appear to be in the same fault domain on nodes: 1-10. CRITICAL: The following nodes have /var mirrors of different sizes: 1-10 INFO: Please open a Technical Support Service Request and reference this failure within the description. INFO: Please refer to KB 000213248 (https://www.dell.com/support/kbdoc/en-us/000213248) for further information.W przypadku zignorowania możliwe jest wystąpienie awarii w węźle MLK 6. lub 6. generacji podczas procedury wymiany dysku lub kieszeni.
Po uruchomieniu węzła przejrzyj
/var/log/messages Plik dla węzła zawiera komunikaty o błędach i komunikaty alarmowe podobne do następujących:
(da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543174480, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 5 (da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 5 (da21:pmspcbsd0:0:22:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 (da21:pmspcbsd0:0:22:0): CAM status: CCB request aborted by the host (da22:pmspcbsd0:0:23:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 (da21:pmspcbsd0:0:22:0): Retrying command, 3 more tries remain (da22:pmspcbsd0:0:23:0): CAM status: CCB request aborted by the host (da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543151fe0, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 2 (da22:pmspcbsd0:0:23:0): Retrying command, 3 more tries remain (da21:pmspcbsd0:0:22:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff80e31347000 status 0x8 flags 0x2 (da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 2 (da21:pmspcbsd0:0:22:0): Invalidating pack (da22:pmspcbsd0:0:23:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff807c4753000 status 0x8 flags 0x2 (da22:pmspcbsd0:0:23:0): Invalidating pack (da21:pmspcbsd0:0:22:0): removing device entry (da21:pmspcbsd0:0:22:0): Periph destroyed panic @ time 1681142660.493, thread 0xfffffe874ee12000: mirror/var1: all devices failed (read, offset 1304707072, length 0) time = 1681142660 cpuid = 3, TSC = 0x5e76342b8e8e59 Panic occurred in module kernel loaded at 0xffffffff80200000: Stack: -------------------------------------------------- kernel:g_mirror_worker+0x251f kernel:fork_exit+0x82 -------------------------------------------------- Disabling swatchdog Dumping stacks (40960 bytes)
Cause
W wersjach 9.2.1.16 i nowszych, 9.4.0.6 i nowszych oraz 9.5.0.0 i nowszych OneFS zwiększa rozmiar partycji /var do 2 GB podczas uaktualniania. Proces rozszerzania może spowodować wyzwolenie tych komunikatów lub zdarzeń.
Komunikat związany z parą dublowania znajdującą się w tej samej domenie błędów jest specyficzny dla węzłów MLK Gen6 i Gen6 (A200, A2000, A300, A3000, H400, H500, H600, H5600, H700, H7000, F800 i F810). Rozszerzenie może nie weryfikować poprawnie domen błędów partycji, umieszczając obie partycje dla jednej z następujących opcji:
Albo
Obcięte
Różne rozmiary partycji var mogą mieć wpływ na dowolny typ węzła Isilon lub PowerScale z systemem OneFS 9.x. Rozszerzenie dla
Aby ustalić, czy problem dotyczy partycji LKG w klastrze, użyj następującego polecenia:
W powyższym przykładzie laboratorium-2
Komunikat związany z parą dublowania znajdującą się w tej samej domenie błędów jest specyficzny dla węzłów MLK Gen6 i Gen6 (A200, A2000, A300, A3000, H400, H500, H600, H5600, H700, H7000, F800 i F810). Rozszerzenie może nie weryfikować poprawnie domen błędów partycji, umieszczając obie partycje dla jednej z następujących opcji:
/var Dublowanie dysków w tych samych sankach. Powoduje to panikę węzła po usunięciu sanek, jeśli oba lustra zamontowanego /var partycja znajduje się w sankach.
Albo
mirror/var0 lub mirror/var1 służy jako aktywny /var dublowanie partycji w dowolnym momencie. Z komunikatu alarmowego w przykładzie wynika, że /mirror/var1 było aktywnym lustrem. Patrząc na gmirror status i isi devices drive list dane wyjściowe polecenia dla węzła:
Obcięte
status Dane wyjściowe polecenia:
gmirror status mirror/var1 COMPLETE da14p3 (ACTIVE) <<<< da13p3 (ACTIVE) <<<<Zadanie
drive list Dane wyjściowe polecenia:
isi devices drive list Lnn Location Device Lnum State Serial Sled --------------------------------------------------------- 21 Bay 1 /dev/da1 15 L3 xxxxxxxxxxxx N/A 21 Bay 2 /dev/da2 16 L3 xxxxxxxxxxxx N/A 21 Bay A0 /dev/da5 12 HEALTHY xxxxxxxx A 21 Bay A1 /dev/da4 13 HEALTHY xxxxxxxx A 21 Bay A2 /dev/da3 14 HEALTHY xxxxxxxx A 21 Bay B0 /dev/da8 9 HEALTHY xxxxxxxx B 21 Bay B1 /dev/da7 10 HEALTHY xxxxxxxx B 21 Bay B2 /dev/da6 11 HEALTHY xxxxxxxx B 21 Bay C0 /dev/da11 6 HEALTHY xxxxxxxx C 21 Bay C1 /dev/da10 7 HEALTHY xxxxxxxx C 21 Bay C2 /dev/da9 8 HEALTHY xxxxxxxx C 21 Bay D0 /dev/da14 3 HEALTHY xxxxxxxx D <<<< 21 Bay D1 /dev/da13 4 HEALTHY xxxxxxxx D <<<< 21 Bay D2 /dev/da12 5 HEALTHY xxxxxxxx D 21 Bay E0 /dev/da17 0 HEALTHY xxxxxxxx E 21 Bay E1 /dev/da16 1 HEALTHY xxxxxxxx E 21 Bay E2 /dev/da15 2 HEALTHY xxxxxxxx E ---------------------------------------------------------W tym przykładzie
/mirror/var1 jest zbudowany na dyskach D0 i D1. Po usunięciu sanek D z klastra węzeł wpadł w panikę z powodu braku dostępu do /var systemu plików.
Różne rozmiary partycji var mogą mieć wpływ na dowolny typ węzła Isilon lub PowerScale z systemem OneFS 9.x. Rozszerzenie dla
/var Rozszerza tylko aktywny /var partycji w systemie. Partycja Last Known Good (LKG) ma nadal oryginalny rozmiar. Jeśli aktywna /var Partycja jest rozszerzona i wypełniona w ponad 50%, co może powodować problemy, jeśli partycja musi zostać obrócona w celu konserwacji.
Aby ustalić, czy problem dotyczy partycji LKG w klastrze, użyj następującego polecenia:
# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media"Przykład:
lab-1# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media" lab-1: 1. Name: mirror/var0 lab-1: Mediasize: 2147479552 (2.0G) lab-1: Mediasize: 2147483648 (2.0G) lab-1: Mediasize: 2147483648 (2.0G) lab-2: 1. Name: mirror/var0 lab-2: Mediasize: 2147479552 (1.0G) <<<< lab-2: Mediasize: 2147483648 (1.0G) <<<< lab-2: Mediasize: 2147483648 (1.0G) <<<< lab-3: 1. Name: mirror/var0 lab-3: Mediasize: 2147479552 (2.0G) lab-3: Mediasize: 2147483648 (2.0G) lab-3: Mediasize: 2147483648 (2.0G) lab-4: 1. Name: mirror/var0 lab-4: Mediasize: 2147479552 (2.0G) lab-4: Mediasize: 2147483648 (2.0G) lab-4: Mediasize: 2147483648 (2.0G) ....Jeśli którekolwiek z urządzeń wróci z rozmiarem (1,0G), dotyczy to urządzenia.
W powyższym przykładzie laboratorium-2
var0 Problem dotyczy partycji i należy je naprawić. Uruchom ponownie polecenie dla var1 w klastrze, aby określić, czy problem dotyczy również tego produktu.Resolution
Trwała poprawka dla FAULT DOMAIN ISSUE ONLY znajduje się w następujących wersjach kodu:
Aby użyć skryptu:
- OneFS 9.5.0.6
- 9.4.0.16
- 9.2.1.25
Uwaga: Tego problemu nie można rozwiązać ręcznie lub przy użyciu poniższego skryptu w klastrach działających w trybie compliance. Jeśli klaster jest w trybie zgodności SmartLock, problem ten można rozwiązać, uaktualniając system OneFS do wersji wymienionych powyżej. Jeśli nie można dokonać aktualizacji w celu rozwiązania tego problemu, skontaktuj się z działem pomocy technicznej firmy Dell i poproś o poprawkę DA. Dostępny jest skrypt rozwiązujący ten problem. Skontaktuj się z działem pomocy technicznej firmy Dell , aby otrzymać pliki, a następnie postępuj zgodnie z poniższymi instrukcjami.
Aby użyć skryptu:
- Pobierz skrypt i plik md5 do klastra. Skopiuj pliki do /ifs/data/Isilon_Support w klastrze i upewnij się, że skrót md5 jest zgodny ze skrótem w pliku md5:
Lab-1# mv var_mirror_repair.sh /ifs/data/Isilon_Support/ Lab-1# mv var_mirror_repair.md5 /ifs/data/Isilon_Support/ Lab-1# md5 /ifs/data/Isilon_Support/var_mirror_repair.sh MD5 (/ifs/data/Isilon_Support/var_mirror_repair.sh) = 0881afeeb39fdaf02e2a90d784e4ed21 Lab-1# # cat /ifs/data/Isilon_Support/var_mirror_repair.md5 0881afeeb39fdaf02e2a90d784e4ed21
- Jeśli skrót jest niezgodny, pobierz skrypt z witryny FTP i skopiuj go ponownie do klastra. Jeśli skrót jest zgodny, uruchom następujące polecenie jako root:
lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh
- Uruchomienie skryptu trwa zwykle 5–10 minut. Może to potrwać dłużej w przypadku dużych (30+ węzłów) lub zajętych klastrów. Po zakończeniu skrypt zgłasza, czy operacja zakończyła się pomyślnie, czy też wystąpiły problemy.
Po uruchomieniu skryptu zostaną wyświetlone następujące dane wyjściowe:
Lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh Full output can be found at: /ifs/data/Isilon_Support/var_mirror_repair.FULL_CLUSTER.2023-10-19T092522.csv Status: 0/4 Nodes checked, 0/4 var0 partitions, 0/4 var1 partitions
W miarę postępu skryptu wiersz stanu jest aktualizowany:
Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions
Po pomyślnym zakończeniu działania skryptu zostaną wyświetlone następujące informacje:
Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions No issues were identified. Moving files to: var_mirror_repair.2023-10-19T092522.d Bundle Location: var_mirror_repair.2023-10-19T092522.tgz
Oznacza to, że wszystkie węzły, których dotyczy problem, zostały naprawione, a skrypt nie miał żadnych problemów. Jeśli otrzymane dane wyjściowe są inne niż w tym przykładzie, skontaktuj się z działem pomocy technicznej firmy Dell i podaj dane wyjściowe oraz pliki dziennika z lokalizacji pakietu.
Affected Products
Isilon F800, Isilon F810, Isilon Gen6, Isilon H400, Isilon H500, Isilon H5600, Isilon H600, PowerScale Archive A300, PowerScale Archive A3000, PowerScale Hybrid H700, PowerScale Hybrid H7000Products
PowerScale F200, PowerScale F600, PowerScale F900Article Properties
Article Number: 000213248
Article Type: Solution
Last Modified: 06 Jan 2026
Version: 21
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.