PowerScale: Problemer med udvidelse af var-partition
Summary: Udvidelsen af /var-partitionen kan forårsage advarselsmeddelelser i Isilon On-Cluster Analysis Tool (IOCA). Problemerne er relateret til en nodepanik, der kan opstå, når du fjerner en drevslæde til vedligeholdelsesformål. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Det aktuelle IOCA-script (Isilon On-Cluster Analysis Tool) genererer følgende advarsler relateret til
Når noden kommer op, skal du gennemgå
/var Partitioner:
System Partition Free Space FAIL CRITICAL: The following nodes have /var mirrors of different sizes: 1-10 INFO: Please reference KB 000213248 (https://www.dell.com/support/kbdoc/000213248) for further information. INFO: For more information refer to KB article 000041465 found at https://www.dell.com/support/kbdoc/000041465.Eller:
Mirror Status FAIL CRITICAL: The mirror pair for var1 appear to be in the same fault domain on nodes: 1-10. CRITICAL: The following nodes have /var mirrors of different sizes: 1-10 INFO: Please open a Technical Support Service Request and reference this failure within the description. INFO: Please refer to KB 000213248 (https://www.dell.com/support/kbdoc/en-us/000213248) for further information.Hvis det ignoreres, er det muligt, at der kan opstå panik på en Gen6 eller Gen6 MLK-node under en drev- eller slædeudskiftningsprocedure.
Når noden kommer op, skal du gennemgå
/var/log/messages Fil til noden viser fejl og panikmeddelelser, der ligner følgende:
(da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543174480, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 5 (da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 5 (da21:pmspcbsd0:0:22:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 (da21:pmspcbsd0:0:22:0): CAM status: CCB request aborted by the host (da22:pmspcbsd0:0:23:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 (da21:pmspcbsd0:0:22:0): Retrying command, 3 more tries remain (da22:pmspcbsd0:0:23:0): CAM status: CCB request aborted by the host (da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543151fe0, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 2 (da22:pmspcbsd0:0:23:0): Retrying command, 3 more tries remain (da21:pmspcbsd0:0:22:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff80e31347000 status 0x8 flags 0x2 (da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 2 (da21:pmspcbsd0:0:22:0): Invalidating pack (da22:pmspcbsd0:0:23:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff807c4753000 status 0x8 flags 0x2 (da22:pmspcbsd0:0:23:0): Invalidating pack (da21:pmspcbsd0:0:22:0): removing device entry (da21:pmspcbsd0:0:22:0): Periph destroyed panic @ time 1681142660.493, thread 0xfffffe874ee12000: mirror/var1: all devices failed (read, offset 1304707072, length 0) time = 1681142660 cpuid = 3, TSC = 0x5e76342b8e8e59 Panic occurred in module kernel loaded at 0xffffffff80200000: Stack: -------------------------------------------------- kernel:g_mirror_worker+0x251f kernel:fork_exit+0x82 -------------------------------------------------- Disabling swatchdog Dumping stacks (40960 bytes)
Cause
I version 9.2.1.16 og nyere, 9.4.0.6 og nyere samt 9.5.0.0 og nyere udvider OneFS /var-partitionsstørrelsen til 2 GB under en opgradering. Udvidelsesprocessen kan medføre, at disse meddelelser eller hændelser udløses.
Meddelelsen om, at spejlparret er i samme fejldomæne, er specifik for Gen6 og Gen6 MLK-noder (A200, A2000, A300, A3000, H400, H500, H600, H5600, H700, H7000, F800 og F810). Udvidelsen validerer muligvis ikke partitionsfejldomæner korrekt, hvilket sætter begge partitioner til enten
Enten
Afkortet
De forskellige størrelser af varpartitionerne kan påvirke enhver Isilon- eller PowerScale-nodetype, der kører OneFS 9.x. Udvidelsen til
Du kan finde ud af, om dette problem påvirker en LKG-partition på klyngen, ved at bruge følgende kommando:
I ovenstående eksempel er lab-2'er
Meddelelsen om, at spejlparret er i samme fejldomæne, er specifik for Gen6 og Gen6 MLK-noder (A200, A2000, A300, A3000, H400, H500, H600, H5600, H700, H7000, F800 og F810). Udvidelsen validerer muligvis ikke partitionsfejldomæner korrekt, hvilket sætter begge partitioner til enten
/var Spejl på drev i samme drevslæde. Dette får knuden til at gå i panik, når slæden fjernes, hvis begge spejle til den monterede /var partition er i slæden.
Enten
mirror/var0 eller mirror/var1 Fungerer som den aktive /var skillevægsspejl til enhver tid. Fra panikmeddelelsen i eksemplet ser vi, at /mirror/var1 var det aktive spejl. Ser man på gmirror status og isi devices drive list kommandoudgange til noden:
Afkortet
status Kommandooutput:
gmirror status mirror/var1 COMPLETE da14p3 (ACTIVE) <<<< da13p3 (ACTIVE) <<<<Ikonet
drive list Kommandooutput:
isi devices drive list Lnn Location Device Lnum State Serial Sled --------------------------------------------------------- 21 Bay 1 /dev/da1 15 L3 xxxxxxxxxxxx N/A 21 Bay 2 /dev/da2 16 L3 xxxxxxxxxxxx N/A 21 Bay A0 /dev/da5 12 HEALTHY xxxxxxxx A 21 Bay A1 /dev/da4 13 HEALTHY xxxxxxxx A 21 Bay A2 /dev/da3 14 HEALTHY xxxxxxxx A 21 Bay B0 /dev/da8 9 HEALTHY xxxxxxxx B 21 Bay B1 /dev/da7 10 HEALTHY xxxxxxxx B 21 Bay B2 /dev/da6 11 HEALTHY xxxxxxxx B 21 Bay C0 /dev/da11 6 HEALTHY xxxxxxxx C 21 Bay C1 /dev/da10 7 HEALTHY xxxxxxxx C 21 Bay C2 /dev/da9 8 HEALTHY xxxxxxxx C 21 Bay D0 /dev/da14 3 HEALTHY xxxxxxxx D <<<< 21 Bay D1 /dev/da13 4 HEALTHY xxxxxxxx D <<<< 21 Bay D2 /dev/da12 5 HEALTHY xxxxxxxx D 21 Bay E0 /dev/da17 0 HEALTHY xxxxxxxx E 21 Bay E1 /dev/da16 1 HEALTHY xxxxxxxx E 21 Bay E2 /dev/da15 2 HEALTHY xxxxxxxx E ---------------------------------------------------------I dette eksempel
/mirror/var1 er bygget på drevene D0 og D1. Da D-slæden fjernes fra klyngen, gik noden i panik på grund af manglende adgang til /var filsystem.
De forskellige størrelser af varpartitionerne kan påvirke enhver Isilon- eller PowerScale-nodetype, der kører OneFS 9.x. Udvidelsen til
/var Udvider kun den aktive /var partition på systemet. LKG-partitionen (Last Known Function) forbliver den oprindelige størrelse. Hvis den aktive /var partitionen udvides og fyldes til mere end 50 %, dette kan medføre problemer, hvis partitionen skal roteres for vedligeholdelse.
Du kan finde ud af, om dette problem påvirker en LKG-partition på klyngen, ved at bruge følgende kommando:
# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media"Eksempel:
lab-1# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media" lab-1: 1. Name: mirror/var0 lab-1: Mediasize: 2147479552 (2.0G) lab-1: Mediasize: 2147483648 (2.0G) lab-1: Mediasize: 2147483648 (2.0G) lab-2: 1. Name: mirror/var0 lab-2: Mediasize: 2147479552 (1.0G) <<<< lab-2: Mediasize: 2147483648 (1.0G) <<<< lab-2: Mediasize: 2147483648 (1.0G) <<<< lab-3: 1. Name: mirror/var0 lab-3: Mediasize: 2147479552 (2.0G) lab-3: Mediasize: 2147483648 (2.0G) lab-3: Mediasize: 2147483648 (2.0G) lab-4: 1. Name: mirror/var0 lab-4: Mediasize: 2147479552 (2.0G) lab-4: Mediasize: 2147483648 (2.0G) lab-4: Mediasize: 2147483648 (2.0G) ....Hvis nogen af enhederne kommer tilbage med en størrelse på (1,0 G), påvirkes det.
I ovenstående eksempel er lab-2'er
var0 Partitioner påvirkes og skal rettes. Kør kommandoen igen for var1 på tværs af klyngen for at afgøre, om den også er påvirket.Resolution
Den permanente løsning til FAULT DOMAIN ISSUE ONLY findes i følgende kodeversioner:
Sådan bruger du scriptet:
- OneFS 9.5.0.6
- 9.4.0.16
- 9.2.1.25
Bemærk: Dette problem kan ikke løses manuelt eller ved hjælp af scriptet nedenfor på klynger, der kører i overholdelsestilstand. Hvis klyngen er i SmartLock-overholdelsestilstand, kan dette problem afhjælpes ved at opgradere til de OneFS-versioner, der er angivet ovenfor. Hvis du ikke kan opgradere for at afhjælpe problemet, skal du kontakte Dell Support og anmode om en DA-programrettelse. Der findes et script til at løse dette problem. Kontakt Dell Support for at modtage filerne, og følg derefter instruktionerne nedenfor.
Sådan bruger du scriptet:
- Download scriptet og md5-filen til klyngen. Kopiér filerne til /ifs/data/Isilon_Support på klyngen, og bekræft, at md5-hashen stemmer overens med hash-værdien i md5-filen:
Lab-1# mv var_mirror_repair.sh /ifs/data/Isilon_Support/ Lab-1# mv var_mirror_repair.md5 /ifs/data/Isilon_Support/ Lab-1# md5 /ifs/data/Isilon_Support/var_mirror_repair.sh MD5 (/ifs/data/Isilon_Support/var_mirror_repair.sh) = 0881afeeb39fdaf02e2a90d784e4ed21 Lab-1# # cat /ifs/data/Isilon_Support/var_mirror_repair.md5 0881afeeb39fdaf02e2a90d784e4ed21
- Hvis hashværdien ikke stemmer overens, skal du hente scriptet fra FTP-stedet og kopiere det til klyngen igen. Hvis hashværdien stemmer overens, skal du køre følgende kommando som root:
lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh
- Scriptet tager normalt 5-10 minutter at køre. Det kan tage længere tid på store (30+ noder) eller optagede klynger. Når scriptet er færdigt, rapporterer det, om det lykkedes, eller om der var problemer.
Når du starter scriptet, ser du følgende output:
Lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh Full output can be found at: /ifs/data/Isilon_Support/var_mirror_repair.FULL_CLUSTER.2023-10-19T092522.csv Status: 0/4 Nodes checked, 0/4 var0 partitions, 0/4 var1 partitions
Efterhånden som scriptet skrider frem, opdateres statuslinjen:
Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions
Når scriptet er fuldført, kan du se følgende:
Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions No issues were identified. Moving files to: var_mirror_repair.2023-10-19T092522.d Bundle Location: var_mirror_repair.2023-10-19T092522.tgz
Dette indikerer, at eventuelle berørte noder blev repareret, og scriptet havde ingen problemer. Hvis det modtagne output er anderledes end dette eksempel, skal du kontakte Dell Support og levere outputtet og logfilerne fra bundtplaceringen.
Affected Products
Isilon F800, Isilon F810, Isilon Gen6, Isilon H400, Isilon H500, Isilon H5600, Isilon H600, PowerScale Archive A300, PowerScale Archive A3000, PowerScale Hybrid H700, PowerScale Hybrid H7000Products
PowerScale F200, PowerScale F600, PowerScale F900Article Properties
Article Number: 000213248
Article Type: Solution
Last Modified: 06 Jan 2026
Version: 21
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.