PowerScale: Problémy s rozšířením oddílu var

Summary: Rozšíření oddílu /var může způsobit varovné zprávy v nástroji Isilon On-Cluster Analysis (IOCA). Problémy souvisejí s panikou uzlu, ke které může dojít při demontáži zásuvného modulu disku kvůli údržbě. ...

Acest articol se aplică pentru Acest articol nu se aplică pentru Acest articol nu este legat de un produs specific. Acest articol nu acoperă toate versiunile de produs existente.

Symptoms

Aktuální skript nástroje Isilon On-Cluster Analysis (IOCA) generuje následující varování související /var oddíly:
System Partition Free Space                       FAIL
  CRITICAL: The following nodes have /var mirrors of different sizes: 1-10
  INFO: Please reference KB 000213248 (https://www.dell.com/support/kbdoc/000213248) for further information.
  INFO: For more information refer to KB article 000041465 found at https://www.dell.com/support/kbdoc/000041465.
Nebo:
Mirror Status                                     FAIL
  CRITICAL: The mirror pair for var1 appear to be in the same fault domain on nodes: 1-10.
  CRITICAL: The following nodes have /var mirrors of different sizes: 1-10
  INFO: Please open a Technical Support Service Request and reference this failure within the description.
  INFO: Please refer to KB 000213248 (https://www.dell.com/support/kbdoc/en-us/000213248) for further information.
Pokud je ignorována, je možné, že během výměny jednotky nebo zásuvného modulu dojde na uzlu MLK Gen6 nebo Gen6 k panice.

Když se uzel spustí, zkontrolujte /var/log/messages soubor pro uzel zobrazuje chyby a panické zprávy podobné těm následujícím:
(da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543174480, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 5 
(da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 5 
(da21:pmspcbsd0:0:22:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 
(da21:pmspcbsd0:0:22:0): CAM status: CCB request aborted by the host 
(da22:pmspcbsd0:0:23:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 
(da21:pmspcbsd0:0:22:0): Retrying command, 3 more tries remain 
(da22:pmspcbsd0:0:23:0): CAM status: CCB request aborted by the host 
(da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543151fe0, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 2 
(da22:pmspcbsd0:0:23:0): Retrying command, 3 more tries remain 
(da21:pmspcbsd0:0:22:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff80e31347000 status 0x8 flags 0x2 
(da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 2 
(da21:pmspcbsd0:0:22:0): Invalidating pack 
(da22:pmspcbsd0:0:23:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff807c4753000 status 0x8 flags 0x2 
(da22:pmspcbsd0:0:23:0): Invalidating pack 
(da21:pmspcbsd0:0:22:0): removing device entry 
(da21:pmspcbsd0:0:22:0): Periph destroyed 
panic @ time 1681142660.493, thread 0xfffffe874ee12000: mirror/var1: all devices failed (read, offset 1304707072, length 0) 
time = 1681142660 
cpuid = 3, TSC = 0x5e76342b8e8e59 
Panic occurred in module kernel loaded at 0xffffffff80200000: 

Stack: -------------------------------------------------- 
kernel:g_mirror_worker+0x251f 
kernel:fork_exit+0x82 
-------------------------------------------------- 
Disabling swatchdog 
Dumping stacks (40960 bytes)

Cause

Ve verzích 9.2.1.16 a novějších, 9.4.0.6 a novějších a 9.5.0.0 a novějších rozšiřuje systém OneFS během upgradu velikost oddílu /var na 2 GB. Proces rozšíření může způsobit aktivaci těchto zpráv nebo událostí.

Zpráva týkající se toho, že dvojice zrcadlení je ve stejné doméně selhání, je specifická pro uzly MLK Gen6 a Gen6 (A200, A2000, A300, A3000, H400, H500, H600, H5600, H700, H7000, F800 a F810). Rozšíření nemusí správně ověřit domény selhání oddílů a umístit oba oddíly pro jednu z nich. /var Zrcadlení na jednotkách ve stejném zásuvném modulu disků. To způsobí, že uzel při demontáži zásuvného modulu zpanikaří, pokud jsou obě zrcadla připojená /var oddíly jsou v zásuvném modulu.

Buď mirror/var0 nebo mirror/var1 slouží jako aktivní /var Zrcadlení oddílu kdykoliv. Ze zprávy paniky v příkladu vidíme, že /mirror/var1 byl aktivním zrcadlem. Při pohledu na gmirror status a isi devices drive list výstupy příkazů pro uzel:

Zkrácený status Výstup příkazu:
gmirror status
     mirror/var1  COMPLETE  da14p3 (ACTIVE) <<<<
                            da13p3 (ACTIVE) <<<<
Příkaz drive list Výstup příkazu:
isi devices drive list
Lnn  Location  Device    Lnum  State   Serial       Sled
---------------------------------------------------------
21   Bay  1    /dev/da1  15    L3      xxxxxxxxxxxx N/A
21   Bay  2    /dev/da2  16    L3      xxxxxxxxxxxx N/A
21   Bay  A0   /dev/da5  12    HEALTHY xxxxxxxx     A
21   Bay  A1   /dev/da4  13    HEALTHY xxxxxxxx     A
21   Bay  A2   /dev/da3  14    HEALTHY xxxxxxxx     A
21   Bay  B0   /dev/da8  9     HEALTHY xxxxxxxx     B
21   Bay  B1   /dev/da7  10    HEALTHY xxxxxxxx     B
21   Bay  B2   /dev/da6  11    HEALTHY xxxxxxxx     B
21   Bay  C0   /dev/da11 6     HEALTHY xxxxxxxx     C
21   Bay  C1   /dev/da10 7     HEALTHY xxxxxxxx     C
21   Bay  C2   /dev/da9  8     HEALTHY xxxxxxxx     C
21   Bay  D0   /dev/da14 3     HEALTHY xxxxxxxx     D <<<<
21   Bay  D1   /dev/da13 4     HEALTHY xxxxxxxx     D <<<<
21   Bay  D2   /dev/da12 5     HEALTHY xxxxxxxx     D
21   Bay  E0   /dev/da17 0     HEALTHY xxxxxxxx     E
21   Bay  E1   /dev/da16 1     HEALTHY xxxxxxxx     E
21   Bay  E2   /dev/da15 2     HEALTHY xxxxxxxx     E
---------------------------------------------------------
V tomto příkladu /mirror/var1 je postaven na discích D0 a D1. Při odebrání zásuvného modulu D z clusteru uzel zpanikařil, protože nebylo možné získat přístup k /var systém souborů.

Různé velikosti oddílů var mohou ovlivnit jakýkoli typ uzlu Isilon nebo PowerScale se systémem OneFS 9.x. Rozšíření pro /var pouze rozbalí aktivní /var oddílu v systému. Oddíl LKG (Last Known Good) si zachová původní velikost. Pokud je aktivní /var Oddíl je rozšířen a zaplněn na více než 50 %, pokud je nutné oddíl otočit kvůli údržbě.

Chcete-li zjistit, zda se tento problém týká oddílu LKG v clusteru, použijte následující příkaz:
# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media"
Příklad:
lab-1# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media"
lab-1: 1. Name: mirror/var0
lab-1:    Mediasize: 2147479552 (2.0G)
lab-1:    Mediasize: 2147483648 (2.0G)
lab-1:    Mediasize: 2147483648 (2.0G)
lab-2: 1. Name: mirror/var0
lab-2:    Mediasize: 2147479552 (1.0G) <<<<
lab-2:    Mediasize: 2147483648 (1.0G) <<<<
lab-2:    Mediasize: 2147483648 (1.0G) <<<<
lab-3: 1. Name: mirror/var0
lab-3:    Mediasize: 2147479552 (2.0G)
lab-3:    Mediasize: 2147483648 (2.0G)
lab-3:    Mediasize: 2147483648 (2.0G)
lab-4: 1. Name: mirror/var0
lab-4:    Mediasize: 2147479552 (2.0G)
lab-4:    Mediasize: 2147483648 (2.0G)
lab-4:    Mediasize: 2147483648 (2.0G)
....
Pokud se některé zařízení vrátí s velikostí (1,0 G), bude ovlivněno.

Ve výše uvedeném příkladu lab-2 var0 Jsou dotčeny oddíly, které je nutné opravit. Znovu spusťte příkaz pro var1 v clusteru, abyste zjistili, zda je také ovlivněn.

Resolution

Trvalá oprava POUZE PROBLÉMU S DOMÉNOU SELHÁNÍ je v následujících verzích kódu:
  • OneFS 9.5.0.6 
  • 9.4.0.16 
  • 9.2.1.25 
Pracuje se na trvalé opravě pro oddíly různé velikosti /var. Problém vyřešíte pomocí skriptovaného postupu. Pokud se vám upgrade nedaří, postupujte podle skriptovaného procesu.
 
Poznámka: Tento problém nelze vyřešit ručně nebo pomocí níže uvedeného skriptu na clusterech spuštěných v režimu souladu. Pokud je cluster v režimu souladu SmartLock, lze tento problém vyřešit upgradem na výše uvedené verze OneFS. Pokud nelze provést upgrade a nápravu tohoto problému, obraťte se na podporu společnosti Dell a požádejte o opravu DA. K dispozici je skript, který tento problém řeší. Soubory získáte od podpory společnosti Dell a poté postupujte podle níže uvedených pokynů.

Použití skriptu:
  1. Stáhněte skript a soubor md5 do clusteru. Zkopírujte soubory do umístění /ifs/data/Isilon_Support v clusteru a ověřte, že hodnota hash md5 odpovídá hodnotě hash v souboru md5:
Lab-1# mv var_mirror_repair.sh /ifs/data/Isilon_Support/
Lab-1# mv var_mirror_repair.md5 /ifs/data/Isilon_Support/
Lab-1# md5 /ifs/data/Isilon_Support/var_mirror_repair.sh
MD5 (/ifs/data/Isilon_Support/var_mirror_repair.sh) = 0881afeeb39fdaf02e2a90d784e4ed21
Lab-1# # cat /ifs/data/Isilon_Support/var_mirror_repair.md5
0881afeeb39fdaf02e2a90d784e4ed21
  1. Pokud se hodnota hash neshoduje, stáhněte skript z umístění FTP a znovu jej zkopírujte do clusteru. Pokud se hodnota hash shoduje, spusťte následující příkaz jako root:
lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh
  1. Spuštění skriptu obvykle trvá 5 až 10 minut. U velkých (30+ uzlů) nebo zaneprázdněných clusterů to může trvat déle. Po dokončení skriptu nahlásí, jestli byl úspěšný nebo jestli došlo k problémům.

Po spuštění skriptu se zobrazí následující výstup:

Lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh
Full output can be found at:
 /ifs/data/Isilon_Support/var_mirror_repair.FULL_CLUSTER.2023-10-19T092522.csv

Status: 0/4 Nodes checked, 0/4 var0 partitions, 0/4 var1 partitions

Jak skript postupuje, stavový řádek se aktualizuje:

Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions

Po úspěšném dokončení skriptu se zobrazí následující:

Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions

No issues were identified.

Moving files to: var_mirror_repair.2023-10-19T092522.d
Bundle Location: var_mirror_repair.2023-10-19T092522.tgz

To znamená, že všechny dotčené uzly byly opraveny a skript neměl žádné problémy. Pokud se přijatý výstup liší od tohoto příkladu, obraťte se na podporu společnosti Dell a poskytněte výstup a soubory protokolu z umístění balíčku.

Produse afectate

Isilon F800, Isilon F810, Isilon Gen6, Isilon H400, Isilon H500, Isilon H5600, Isilon H600, PowerScale Archive A300, PowerScale Archive A3000, PowerScale Hybrid H700, PowerScale Hybrid H7000

Produse

PowerScale F200, PowerScale F600, PowerScale F900
Proprietăți articol
Article Number: 000213248
Article Type: Solution
Ultima modificare: 06 Jan 2026
Version:  21
Găsiți răspunsuri la întrebările dvs. de la alți utilizatori Dell
Servicii de asistență
Verificați dacă dispozitivul dvs. este acoperit de serviciile de asistență.