PowerScale: Problemer med udvidelse af var-partition

Summary: Udvidelsen af /var-partitionen kan forårsage advarselsmeddelelser i Isilon On-Cluster Analysis Tool (IOCA). Problemerne er relateret til en nodepanik, der kan opstå, når du fjerner en drevslæde til vedligeholdelsesformål. ...

Acest articol se aplică pentru Acest articol nu se aplică pentru Acest articol nu este legat de un produs specific. Acest articol nu acoperă toate versiunile de produs existente.

Symptoms

Det aktuelle IOCA-script (Isilon On-Cluster Analysis Tool) genererer følgende advarsler relateret til /var Partitioner:
System Partition Free Space                       FAIL
  CRITICAL: The following nodes have /var mirrors of different sizes: 1-10
  INFO: Please reference KB 000213248 (https://www.dell.com/support/kbdoc/000213248) for further information.
  INFO: For more information refer to KB article 000041465 found at https://www.dell.com/support/kbdoc/000041465.
Eller:
Mirror Status                                     FAIL
  CRITICAL: The mirror pair for var1 appear to be in the same fault domain on nodes: 1-10.
  CRITICAL: The following nodes have /var mirrors of different sizes: 1-10
  INFO: Please open a Technical Support Service Request and reference this failure within the description.
  INFO: Please refer to KB 000213248 (https://www.dell.com/support/kbdoc/en-us/000213248) for further information.
Hvis det ignoreres, er det muligt, at der kan opstå panik på en Gen6 eller Gen6 MLK-node under en drev- eller slædeudskiftningsprocedure.

Når noden kommer op, skal du gennemgå /var/log/messages Fil til noden viser fejl og panikmeddelelser, der ligner følgende:
(da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543174480, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 5 
(da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 5 
(da21:pmspcbsd0:0:22:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 
(da21:pmspcbsd0:0:22:0): CAM status: CCB request aborted by the host 
(da22:pmspcbsd0:0:23:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 
(da21:pmspcbsd0:0:22:0): Retrying command, 3 more tries remain 
(da22:pmspcbsd0:0:23:0): CAM status: CCB request aborted by the host 
(da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543151fe0, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 2 
(da22:pmspcbsd0:0:23:0): Retrying command, 3 more tries remain 
(da21:pmspcbsd0:0:22:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff80e31347000 status 0x8 flags 0x2 
(da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 2 
(da21:pmspcbsd0:0:22:0): Invalidating pack 
(da22:pmspcbsd0:0:23:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff807c4753000 status 0x8 flags 0x2 
(da22:pmspcbsd0:0:23:0): Invalidating pack 
(da21:pmspcbsd0:0:22:0): removing device entry 
(da21:pmspcbsd0:0:22:0): Periph destroyed 
panic @ time 1681142660.493, thread 0xfffffe874ee12000: mirror/var1: all devices failed (read, offset 1304707072, length 0) 
time = 1681142660 
cpuid = 3, TSC = 0x5e76342b8e8e59 
Panic occurred in module kernel loaded at 0xffffffff80200000: 

Stack: -------------------------------------------------- 
kernel:g_mirror_worker+0x251f 
kernel:fork_exit+0x82 
-------------------------------------------------- 
Disabling swatchdog 
Dumping stacks (40960 bytes)

Cause

I version 9.2.1.16 og nyere, 9.4.0.6 og nyere samt 9.5.0.0 og nyere udvider OneFS /var-partitionsstørrelsen til 2 GB under en opgradering. Udvidelsesprocessen kan medføre, at disse meddelelser eller hændelser udløses.

Meddelelsen om, at spejlparret er i samme fejldomæne, er specifik for Gen6 og Gen6 MLK-noder (A200, A2000, A300, A3000, H400, H500, H600, H5600, H700, H7000, F800 og F810). Udvidelsen validerer muligvis ikke partitionsfejldomæner korrekt, hvilket sætter begge partitioner til enten /var Spejl på drev i samme drevslæde. Dette får knuden til at gå i panik, når slæden fjernes, hvis begge spejle til den monterede /var partition er i slæden.

Enten mirror/var0 eller mirror/var1 Fungerer som den aktive /var skillevægsspejl til enhver tid. Fra panikmeddelelsen i eksemplet ser vi, at /mirror/var1 var det aktive spejl. Ser man på gmirror status og isi devices drive list kommandoudgange til noden:

Afkortet status Kommandooutput:
gmirror status
     mirror/var1  COMPLETE  da14p3 (ACTIVE) <<<<
                            da13p3 (ACTIVE) <<<<
Ikonet drive list Kommandooutput:
isi devices drive list
Lnn  Location  Device    Lnum  State   Serial       Sled
---------------------------------------------------------
21   Bay  1    /dev/da1  15    L3      xxxxxxxxxxxx N/A
21   Bay  2    /dev/da2  16    L3      xxxxxxxxxxxx N/A
21   Bay  A0   /dev/da5  12    HEALTHY xxxxxxxx     A
21   Bay  A1   /dev/da4  13    HEALTHY xxxxxxxx     A
21   Bay  A2   /dev/da3  14    HEALTHY xxxxxxxx     A
21   Bay  B0   /dev/da8  9     HEALTHY xxxxxxxx     B
21   Bay  B1   /dev/da7  10    HEALTHY xxxxxxxx     B
21   Bay  B2   /dev/da6  11    HEALTHY xxxxxxxx     B
21   Bay  C0   /dev/da11 6     HEALTHY xxxxxxxx     C
21   Bay  C1   /dev/da10 7     HEALTHY xxxxxxxx     C
21   Bay  C2   /dev/da9  8     HEALTHY xxxxxxxx     C
21   Bay  D0   /dev/da14 3     HEALTHY xxxxxxxx     D <<<<
21   Bay  D1   /dev/da13 4     HEALTHY xxxxxxxx     D <<<<
21   Bay  D2   /dev/da12 5     HEALTHY xxxxxxxx     D
21   Bay  E0   /dev/da17 0     HEALTHY xxxxxxxx     E
21   Bay  E1   /dev/da16 1     HEALTHY xxxxxxxx     E
21   Bay  E2   /dev/da15 2     HEALTHY xxxxxxxx     E
---------------------------------------------------------
I dette eksempel /mirror/var1 er bygget på drevene D0 og D1. Da D-slæden fjernes fra klyngen, gik noden i panik på grund af manglende adgang til /var filsystem.

De forskellige størrelser af varpartitionerne kan påvirke enhver Isilon- eller PowerScale-nodetype, der kører OneFS 9.x. Udvidelsen til /var Udvider kun den aktive /var partition på systemet. LKG-partitionen (Last Known Function) forbliver den oprindelige størrelse. Hvis den aktive /var partitionen udvides og fyldes til mere end 50 %, dette kan medføre problemer, hvis partitionen skal roteres for vedligeholdelse.

Du kan finde ud af, om dette problem påvirker en LKG-partition på klyngen, ved at bruge følgende kommando:
# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media"
Eksempel:
lab-1# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media"
lab-1: 1. Name: mirror/var0
lab-1:    Mediasize: 2147479552 (2.0G)
lab-1:    Mediasize: 2147483648 (2.0G)
lab-1:    Mediasize: 2147483648 (2.0G)
lab-2: 1. Name: mirror/var0
lab-2:    Mediasize: 2147479552 (1.0G) <<<<
lab-2:    Mediasize: 2147483648 (1.0G) <<<<
lab-2:    Mediasize: 2147483648 (1.0G) <<<<
lab-3: 1. Name: mirror/var0
lab-3:    Mediasize: 2147479552 (2.0G)
lab-3:    Mediasize: 2147483648 (2.0G)
lab-3:    Mediasize: 2147483648 (2.0G)
lab-4: 1. Name: mirror/var0
lab-4:    Mediasize: 2147479552 (2.0G)
lab-4:    Mediasize: 2147483648 (2.0G)
lab-4:    Mediasize: 2147483648 (2.0G)
....
Hvis nogen af enhederne kommer tilbage med en størrelse på (1,0 G), påvirkes det.

I ovenstående eksempel er lab-2'er var0 Partitioner påvirkes og skal rettes. Kør kommandoen igen for var1 på tværs af klyngen for at afgøre, om den også er påvirket.

Resolution

Den permanente løsning til FAULT DOMAIN ISSUE ONLY findes i følgende kodeversioner:
  • OneFS 9.5.0.6 
  • 9.4.0.16 
  • 9.2.1.25 
Den permanente rettelse til de forskellige størrelse /var-partitioner arbejdes på. For at løse problemet skal du følge scriptprocessen. Hvis du ikke kan opgradere, skal du følge scriptprocessen.
 
Bemærk: Dette problem kan ikke løses manuelt eller ved hjælp af scriptet nedenfor på klynger, der kører i overholdelsestilstand. Hvis klyngen er i SmartLock-overholdelsestilstand, kan dette problem afhjælpes ved at opgradere til de OneFS-versioner, der er angivet ovenfor. Hvis du ikke kan opgradere for at afhjælpe problemet, skal du kontakte Dell Support og anmode om en DA-programrettelse. Der findes et script til at løse dette problem. Kontakt Dell Support for at modtage filerne, og følg derefter instruktionerne nedenfor.

Sådan bruger du scriptet:
  1. Download scriptet og md5-filen til klyngen. Kopiér filerne til /ifs/data/Isilon_Support på klyngen, og bekræft, at md5-hashen stemmer overens med hash-værdien i md5-filen:
Lab-1# mv var_mirror_repair.sh /ifs/data/Isilon_Support/
Lab-1# mv var_mirror_repair.md5 /ifs/data/Isilon_Support/
Lab-1# md5 /ifs/data/Isilon_Support/var_mirror_repair.sh
MD5 (/ifs/data/Isilon_Support/var_mirror_repair.sh) = 0881afeeb39fdaf02e2a90d784e4ed21
Lab-1# # cat /ifs/data/Isilon_Support/var_mirror_repair.md5
0881afeeb39fdaf02e2a90d784e4ed21
  1. Hvis hashværdien ikke stemmer overens, skal du hente scriptet fra FTP-stedet og kopiere det til klyngen igen. Hvis hashværdien stemmer overens, skal du køre følgende kommando som root:
lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh
  1. Scriptet tager normalt 5-10 minutter at køre. Det kan tage længere tid på store (30+ noder) eller optagede klynger. Når scriptet er færdigt, rapporterer det, om det lykkedes, eller om der var problemer.

Når du starter scriptet, ser du følgende output:

Lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh
Full output can be found at:
 /ifs/data/Isilon_Support/var_mirror_repair.FULL_CLUSTER.2023-10-19T092522.csv

Status: 0/4 Nodes checked, 0/4 var0 partitions, 0/4 var1 partitions

Efterhånden som scriptet skrider frem, opdateres statuslinjen:

Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions

Når scriptet er fuldført, kan du se følgende:

Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions

No issues were identified.

Moving files to: var_mirror_repair.2023-10-19T092522.d
Bundle Location: var_mirror_repair.2023-10-19T092522.tgz

Dette indikerer, at eventuelle berørte noder blev repareret, og scriptet havde ingen problemer. Hvis det modtagne output er anderledes end dette eksempel, skal du kontakte Dell Support og levere outputtet og logfilerne fra bundtplaceringen.

Produse afectate

Isilon F800, Isilon F810, Isilon Gen6, Isilon H400, Isilon H500, Isilon H5600, Isilon H600, PowerScale Archive A300, PowerScale Archive A3000, PowerScale Hybrid H700, PowerScale Hybrid H7000

Produse

PowerScale F200, PowerScale F600, PowerScale F900
Proprietăți articol
Article Number: 000213248
Article Type: Solution
Ultima modificare: 06 Jan 2026
Version:  21
Găsiți răspunsuri la întrebările dvs. de la alți utilizatori Dell
Servicii de asistență
Verificați dacă dispozitivul dvs. este acoperit de serviciile de asistență.