PowerScale: Problemer med utvidelse av VAR-partisjon
Summary: /var-partisjonsutvidelsen kan forårsake advarselsmeldinger i analyseverktøyet for Isilon-klynge (IOCA). Problemene er relatert til en nodepanikk som kan oppstå når du fjerner en diskslede for vedlikeholdsformål. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Det gjeldende skriptet for Isilon On-Cluster Analysis tool (IOCA) genererer følgende advarsler relatert til
Når noden vises, går vi gjennom
/var Partisjoner:
System Partition Free Space FAIL CRITICAL: The following nodes have /var mirrors of different sizes: 1-10 INFO: Please reference KB 000213248 (https://www.dell.com/support/kbdoc/000213248) for further information. INFO: For more information refer to KB article 000041465 found at https://www.dell.com/support/kbdoc/000041465.Eller:
Mirror Status FAIL CRITICAL: The mirror pair for var1 appear to be in the same fault domain on nodes: 1-10. CRITICAL: The following nodes have /var mirrors of different sizes: 1-10 INFO: Please open a Technical Support Service Request and reference this failure within the description. INFO: Please refer to KB 000213248 (https://www.dell.com/support/kbdoc/en-us/000213248) for further information.Hvis ignorert, er det mulig at det kan oppstå panikk på en Gen6 eller Gen6 MLK-node under en stasjons- eller sledeutskifting.
Når noden vises, går vi gjennom
/var/log/messages -filen for noden viser feil og panikkmeldinger som ligner på følgende:
(da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543174480, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 5 (da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 5 (da21:pmspcbsd0:0:22:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 (da21:pmspcbsd0:0:22:0): CAM status: CCB request aborted by the host (da22:pmspcbsd0:0:23:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 (da21:pmspcbsd0:0:22:0): Retrying command, 3 more tries remain (da22:pmspcbsd0:0:23:0): CAM status: CCB request aborted by the host (da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543151fe0, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 2 (da22:pmspcbsd0:0:23:0): Retrying command, 3 more tries remain (da21:pmspcbsd0:0:22:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff80e31347000 status 0x8 flags 0x2 (da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 2 (da21:pmspcbsd0:0:22:0): Invalidating pack (da22:pmspcbsd0:0:23:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff807c4753000 status 0x8 flags 0x2 (da22:pmspcbsd0:0:23:0): Invalidating pack (da21:pmspcbsd0:0:22:0): removing device entry (da21:pmspcbsd0:0:22:0): Periph destroyed panic @ time 1681142660.493, thread 0xfffffe874ee12000: mirror/var1: all devices failed (read, offset 1304707072, length 0) time = 1681142660 cpuid = 3, TSC = 0x5e76342b8e8e59 Panic occurred in module kernel loaded at 0xffffffff80200000: Stack: -------------------------------------------------- kernel:g_mirror_worker+0x251f kernel:fork_exit+0x82 -------------------------------------------------- Disabling swatchdog Dumping stacks (40960 bytes)
Cause
I versjon 9.2.1.16 og nyere, 9.4.0.6 og nyere, og 9.5.0.0 og nyere, utvider OneFS /var-partisjonsstørrelsen til 2 GB under en oppgradering. Utvidelsesprosessen kan føre til at disse meldingene eller hendelsene utløses.
Meldingen knyttet til at speilparet er i samme feildomene, er spesifikk for MLK-noder for Gen6 og Gen6 (A200, A2000, A300, A3000, H400, H500, H600, H5600, H700, H7000, F800 og F810). Utvidelsen validerer kanskje ikke partisjonsfeildomener riktig, og setter begge partisjonene for noen av dem
Enten
Truncated
De ulike størrelsene på var-partisjonene kan påvirke alle Isilon- eller PowerScale-nodetyper som kjører OneFS 9.x. Utvidelsen for
Hvis du vil finne ut om dette problemet påvirker en LKG-partisjon på klyngen, bruker du følgende kommando:
I eksemplet ovenfor er lab-2s
Meldingen knyttet til at speilparet er i samme feildomene, er spesifikk for MLK-noder for Gen6 og Gen6 (A200, A2000, A300, A3000, H400, H500, H600, H5600, H700, H7000, F800 og F810). Utvidelsen validerer kanskje ikke partisjonsfeildomener riktig, og setter begge partisjonene for noen av dem
/var speile på stasjoner i samme diskslede. Dette fører til at noden får panikk når sleden fjernes hvis begge speilene for den monterte /var partisjonen er i sleden.
Enten
mirror/var0 eller mirror/var1 Fungerer som den aktive /var partisjon speil når som helst. Fra panikkmeldingen i eksemplet ser vi at /mirror/var1 var det aktive speilet. Ser på gmirror status og isi devices drive list kommandoutganger for noden:
Truncated
status Kommandoutdata:
gmirror status mirror/var1 COMPLETE da14p3 (ACTIVE) <<<< da13p3 (ACTIVE) <<<<Informasjonen i
drive list Kommandoutdata:
isi devices drive list Lnn Location Device Lnum State Serial Sled --------------------------------------------------------- 21 Bay 1 /dev/da1 15 L3 xxxxxxxxxxxx N/A 21 Bay 2 /dev/da2 16 L3 xxxxxxxxxxxx N/A 21 Bay A0 /dev/da5 12 HEALTHY xxxxxxxx A 21 Bay A1 /dev/da4 13 HEALTHY xxxxxxxx A 21 Bay A2 /dev/da3 14 HEALTHY xxxxxxxx A 21 Bay B0 /dev/da8 9 HEALTHY xxxxxxxx B 21 Bay B1 /dev/da7 10 HEALTHY xxxxxxxx B 21 Bay B2 /dev/da6 11 HEALTHY xxxxxxxx B 21 Bay C0 /dev/da11 6 HEALTHY xxxxxxxx C 21 Bay C1 /dev/da10 7 HEALTHY xxxxxxxx C 21 Bay C2 /dev/da9 8 HEALTHY xxxxxxxx C 21 Bay D0 /dev/da14 3 HEALTHY xxxxxxxx D <<<< 21 Bay D1 /dev/da13 4 HEALTHY xxxxxxxx D <<<< 21 Bay D2 /dev/da12 5 HEALTHY xxxxxxxx D 21 Bay E0 /dev/da17 0 HEALTHY xxxxxxxx E 21 Bay E1 /dev/da16 1 HEALTHY xxxxxxxx E 21 Bay E2 /dev/da15 2 HEALTHY xxxxxxxx E ---------------------------------------------------------I dette eksemplet,
/mirror/var1 er bygget på diskene D0 og D1. Når D-sleden fjernes fra klyngen, får noden panikk på grunn av manglende evne til å få tilgang til /var filsystem.
De ulike størrelsene på var-partisjonene kan påvirke alle Isilon- eller PowerScale-nodetyper som kjører OneFS 9.x. Utvidelsen for
/var Utvider bare den aktive /var partisjonen på systemet. Partisjonen Last Known Good (LKG) forblir den opprinnelige størrelsen. Hvis den aktive /var Partisjonen utvides og fylles til mer enn 50 %, Dette kan føre til problemer hvis partisjonen må roteres for vedlikehold.
Hvis du vil finne ut om dette problemet påvirker en LKG-partisjon på klyngen, bruker du følgende kommando:
# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media"Eksempel:
lab-1# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media" lab-1: 1. Name: mirror/var0 lab-1: Mediasize: 2147479552 (2.0G) lab-1: Mediasize: 2147483648 (2.0G) lab-1: Mediasize: 2147483648 (2.0G) lab-2: 1. Name: mirror/var0 lab-2: Mediasize: 2147479552 (1.0G) <<<< lab-2: Mediasize: 2147483648 (1.0G) <<<< lab-2: Mediasize: 2147483648 (1.0G) <<<< lab-3: 1. Name: mirror/var0 lab-3: Mediasize: 2147479552 (2.0G) lab-3: Mediasize: 2147483648 (2.0G) lab-3: Mediasize: 2147483648 (2.0G) lab-4: 1. Name: mirror/var0 lab-4: Mediasize: 2147479552 (2.0G) lab-4: Mediasize: 2147483648 (2.0G) lab-4: Mediasize: 2147483648 (2.0G) ....Hvis noen av enhetene kommer tilbake med en størrelse på (1.0G), påvirkes den.
I eksemplet ovenfor er lab-2s
var0 Partisjoner påvirkes og må løses. Kjør kommandoen for på nytt var1 på tvers av klyngen for å finne ut om den også er berørt.Resolution
Den permanente løsningen for FAULT DOMAIN ISSUE finnes bare i følgende kodeversjoner:
Slik bruker du skriptet:
- OneFS 9.5.0.6
- 9.4.0.16
- 9.2.1.25
Merk: Dette problemet kan ikke løses manuelt eller ved hjelp av skriptet nedenfor på klynger som kjører i samsvarsmodus. Hvis klyngen er i samsvarsmodus for SmartLock, kan dette problemet løses ved å oppgradere til OneFS-versjonene som er oppført ovenfor. Hvis du ikke kan oppgradere for å løse dette problemet, kan du kontakte Dells kundestøtte og be om en DA-korrigering. Det er et skript tilgjengelig for å løse dette problemet. Kontakt Dells kundestøtte for å motta filene, og følg instruksjonene nedenfor.
Slik bruker du skriptet:
- Last ned skriptet og md5-filen til klyngen. Kopier filene til /ifs/data/Isilon_Support i klyngen, og kontroller at md5-hashen samsvarer med hash-koden i md5-filen:
Lab-1# mv var_mirror_repair.sh /ifs/data/Isilon_Support/ Lab-1# mv var_mirror_repair.md5 /ifs/data/Isilon_Support/ Lab-1# md5 /ifs/data/Isilon_Support/var_mirror_repair.sh MD5 (/ifs/data/Isilon_Support/var_mirror_repair.sh) = 0881afeeb39fdaf02e2a90d784e4ed21 Lab-1# # cat /ifs/data/Isilon_Support/var_mirror_repair.md5 0881afeeb39fdaf02e2a90d784e4ed21
- Hvis hash-koden ikke samsvarer, laster du ned skriptet fra FTP-området og kopierer det til klyngen på nytt. Hvis hash-koden samsvarer, kjører du følgende kommando som rot:
lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh
- Det tar vanligvis 5–10 minutter å kjøre skriptet. Det kan ta lengre tid på store (30+ noder) eller travle klynger. Når skriptet er fullført, rapporterer det om det var vellykket eller om det oppstod problemer.
Når du starter skriptet, ser du følgende utdata:
Lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh Full output can be found at: /ifs/data/Isilon_Support/var_mirror_repair.FULL_CLUSTER.2023-10-19T092522.csv Status: 0/4 Nodes checked, 0/4 var0 partitions, 0/4 var1 partitions
Etter hvert som skriptet skrider fremover, oppdateres statuslinjen:
Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions
Når skriptet er fullført, ser du følgende:
Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions No issues were identified. Moving files to: var_mirror_repair.2023-10-19T092522.d Bundle Location: var_mirror_repair.2023-10-19T092522.tgz
Dette indikerer at eventuelle berørte noder ble reparert, og skriptet hadde ingen problemer. Hvis de mottatte utdataene er forskjellige fra dette eksempelet, kontakter du Dells kundestøtte og leverer utdataene og loggfilene fra pakkeplasseringen.
Affected Products
Isilon F800, Isilon F810, Isilon Gen6, Isilon H400, Isilon H500, Isilon H5600, Isilon H600, PowerScale Archive A300, PowerScale Archive A3000, PowerScale Hybrid H700, PowerScale Hybrid H7000Products
PowerScale F200, PowerScale F600, PowerScale F900Article Properties
Article Number: 000213248
Article Type: Solution
Last Modified: 06 Jan 2026
Version: 21
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.