PowerScale: Problemen met var-partitie-uitbreiding
Summary: De /var-partitie-uitbreiding kan waarschuwingsberichten veroorzaken in de Isilon On-Cluster Analysis Tool (IOCA). De problemen hebben te maken met een noodsituatie in een knooppunt dat kan optreden bij het verwijderen van een schijfslede voor onderhoudsdoeleinden. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Het huidige Isilon On-Cluster Analysis Tool (IOCA)-script genereert de volgende waarschuwingen met betrekking tot de
Wanneer het knooppunt wordt weergegeven, bekijkt u de
/var Partities:
System Partition Free Space FAIL CRITICAL: The following nodes have /var mirrors of different sizes: 1-10 INFO: Please reference KB 000213248 (https://www.dell.com/support/kbdoc/000213248) for further information. INFO: For more information refer to KB article 000041465 found at https://www.dell.com/support/kbdoc/000041465.Of:
Mirror Status FAIL CRITICAL: The mirror pair for var1 appear to be in the same fault domain on nodes: 1-10. CRITICAL: The following nodes have /var mirrors of different sizes: 1-10 INFO: Please open a Technical Support Service Request and reference this failure within the description. INFO: Please refer to KB 000213248 (https://www.dell.com/support/kbdoc/en-us/000213248) for further information.Als dit niet het geval is, is het mogelijk dat er een panic optreedt op een Gen6 of Gen6 MLK knooppunt tijdens een vervangingsprocedure voor een schijf of slee.
Wanneer het knooppunt wordt weergegeven, bekijkt u de
/var/log/messages Bestand voor het knooppunt bevat fouten en paniekberichten die vergelijkbaar zijn met de volgende:
(da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543174480, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 5 (da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 5 (da21:pmspcbsd0:0:22:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 (da21:pmspcbsd0:0:22:0): CAM status: CCB request aborted by the host (da22:pmspcbsd0:0:23:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 (da21:pmspcbsd0:0:22:0): Retrying command, 3 more tries remain (da22:pmspcbsd0:0:23:0): CAM status: CCB request aborted by the host (da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543151fe0, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 2 (da22:pmspcbsd0:0:23:0): Retrying command, 3 more tries remain (da21:pmspcbsd0:0:22:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff80e31347000 status 0x8 flags 0x2 (da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 2 (da21:pmspcbsd0:0:22:0): Invalidating pack (da22:pmspcbsd0:0:23:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff807c4753000 status 0x8 flags 0x2 (da22:pmspcbsd0:0:23:0): Invalidating pack (da21:pmspcbsd0:0:22:0): removing device entry (da21:pmspcbsd0:0:22:0): Periph destroyed panic @ time 1681142660.493, thread 0xfffffe874ee12000: mirror/var1: all devices failed (read, offset 1304707072, length 0) time = 1681142660 cpuid = 3, TSC = 0x5e76342b8e8e59 Panic occurred in module kernel loaded at 0xffffffff80200000: Stack: -------------------------------------------------- kernel:g_mirror_worker+0x251f kernel:fork_exit+0x82 -------------------------------------------------- Disabling swatchdog Dumping stacks (40960 bytes)
Cause
In versies 9.2.1.16 en hoger, 9.4.0.6 en hoger en 9.5.0.0 en hoger breidt OneFS de partitiegrootte /var uit tot 2 GB tijdens een upgrade. Het uitbreidingsproces kan ertoe leiden dat deze berichten of gebeurtenissen worden geactiveerd.
Het bericht met betrekking tot het spiegelpaar dat zich in hetzelfde foutdomein bevindt, is specifiek voor Gen6- en Gen6 MLK-knooppunten (A200, A2000, A300, A3000, H400, H500, H600, H5600, H700, H7000, F800 en F810). De uitbreiding valideert mogelijk de partitiefoutdomeinen niet goed, waardoor beide partities voor een van beide
Hetzij
Afgekapt
De verschillende groottes van de var-partities kunnen van invloed zijn op elk Isilon- of PowerScale-knooppunttype waarop OneFS 9.x wordt uitgevoerd. De uitbreiding voor
Om te bepalen of dit probleem van invloed is op een LKG-partitie op het cluster, gebruikt u de volgende opdracht:
In het bovenstaande voorbeeld worden lab-2's
Het bericht met betrekking tot het spiegelpaar dat zich in hetzelfde foutdomein bevindt, is specifiek voor Gen6- en Gen6 MLK-knooppunten (A200, A2000, A300, A3000, H400, H500, H600, H5600, H700, H7000, F800 en F810). De uitbreiding valideert mogelijk de partitiefoutdomeinen niet goed, waardoor beide partities voor een van beide
/var spiegelen op schijven in dezelfde schijfslede. Dit zorgt ervoor dat de node in paniek raakt wanneer de slee wordt verwijderd als beide spiegels voor de gemonteerde /var partitie bevinden zich in de slee.
Hetzij
mirror/var0 of mirror/var1 dient als de actieve /var partitiespiegel op elk gewenst moment. Uit de paniekmelding in het voorbeeld zien we dat /mirror/var1 was de actieve spiegel. Kijkend naar de gmirror status als isi devices drive list opdrachtuitgangen voor het knooppunt:
Afgekapt
status Command Output:
gmirror status mirror/var1 COMPLETE da14p3 (ACTIVE) <<<< da13p3 (ACTIVE) <<<<De
drive list Command Output:
isi devices drive list Lnn Location Device Lnum State Serial Sled --------------------------------------------------------- 21 Bay 1 /dev/da1 15 L3 xxxxxxxxxxxx N/A 21 Bay 2 /dev/da2 16 L3 xxxxxxxxxxxx N/A 21 Bay A0 /dev/da5 12 HEALTHY xxxxxxxx A 21 Bay A1 /dev/da4 13 HEALTHY xxxxxxxx A 21 Bay A2 /dev/da3 14 HEALTHY xxxxxxxx A 21 Bay B0 /dev/da8 9 HEALTHY xxxxxxxx B 21 Bay B1 /dev/da7 10 HEALTHY xxxxxxxx B 21 Bay B2 /dev/da6 11 HEALTHY xxxxxxxx B 21 Bay C0 /dev/da11 6 HEALTHY xxxxxxxx C 21 Bay C1 /dev/da10 7 HEALTHY xxxxxxxx C 21 Bay C2 /dev/da9 8 HEALTHY xxxxxxxx C 21 Bay D0 /dev/da14 3 HEALTHY xxxxxxxx D <<<< 21 Bay D1 /dev/da13 4 HEALTHY xxxxxxxx D <<<< 21 Bay D2 /dev/da12 5 HEALTHY xxxxxxxx D 21 Bay E0 /dev/da17 0 HEALTHY xxxxxxxx E 21 Bay E1 /dev/da16 1 HEALTHY xxxxxxxx E 21 Bay E2 /dev/da15 2 HEALTHY xxxxxxxx E ---------------------------------------------------------In dit voorbeeld
/mirror/var1 is gebouwd op schijven D0 en D1. Wanneer de D-slede uit het cluster wordt verwijderd, raakt het knooppunt in paniek omdat er geen toegang is tot de /var bestandssysteem.
De verschillende groottes van de var-partities kunnen van invloed zijn op elk Isilon- of PowerScale-knooppunttype waarop OneFS 9.x wordt uitgevoerd. De uitbreiding voor
/var Vouwt alleen de actieve /var partitie op het systeem. De LKG-partitie (Last Known Good) blijft de oorspronkelijke grootte behouden. Als het actieve /var De partitie is uitgebreid en gevuld tot meer dan 50%, dit kan problemen veroorzaken als de partitie moet worden gedraaid voor onderhoud.
Om te bepalen of dit probleem van invloed is op een LKG-partitie op het cluster, gebruikt u de volgende opdracht:
# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media"Voorbeeld:
lab-1# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media" lab-1: 1. Name: mirror/var0 lab-1: Mediasize: 2147479552 (2.0G) lab-1: Mediasize: 2147483648 (2.0G) lab-1: Mediasize: 2147483648 (2.0G) lab-2: 1. Name: mirror/var0 lab-2: Mediasize: 2147479552 (1.0G) <<<< lab-2: Mediasize: 2147483648 (1.0G) <<<< lab-2: Mediasize: 2147483648 (1.0G) <<<< lab-3: 1. Name: mirror/var0 lab-3: Mediasize: 2147479552 (2.0G) lab-3: Mediasize: 2147483648 (2.0G) lab-3: Mediasize: 2147483648 (2.0G) lab-4: 1. Name: mirror/var0 lab-4: Mediasize: 2147479552 (2.0G) lab-4: Mediasize: 2147483648 (2.0G) lab-4: Mediasize: 2147483648 (2.0G) ....Als een van de apparaten terugkomt met een grootte van (1.0G), heeft dit dit invloed.
In het bovenstaande voorbeeld worden lab-2's
var0 Partities zijn getroffen en moeten worden opgelost. Voer de opdracht opnieuw uit voor var1 over het hele cluster om te bepalen of dit ook wordt beïnvloed.Resolution
De permanente oplossing voor het FAULT DOMAIN ISSUE ONLY is te vinden in de volgende codereleases:
Het script gebruiken:
- OneFS 9.5.0.6
- 9.4.0.16
- 9.2.1.25
Opmerking: Dit probleem kan niet handmatig of met behulp van het onderstaande script worden opgelost voor clusters die worden uitgevoerd in de nalevingsmodus. Als het cluster zich in de SmartLock Compliance-modus bevindt, kan dit probleem worden opgelost door te upgraden naar de hierboven vermelde OneFS-versies. Als u niet kunt upgraden om dit probleem op te lossen, neemt u contact op met Dell Support en vraagt u een DA-patch aan. Er is een script beschikbaar om dit probleem op te lossen. Neem contact op met Dell Support om de bestanden te ontvangen en volg de onderstaande instructies.
Het script gebruiken:
- Download het script en het md5-bestand naar het cluster. Kopieer de bestanden naar /ifs/data/Isilon_Support op het cluster en controleer of de md5-hash overeenkomt met de hash in het md5-bestand:
Lab-1# mv var_mirror_repair.sh /ifs/data/Isilon_Support/ Lab-1# mv var_mirror_repair.md5 /ifs/data/Isilon_Support/ Lab-1# md5 /ifs/data/Isilon_Support/var_mirror_repair.sh MD5 (/ifs/data/Isilon_Support/var_mirror_repair.sh) = 0881afeeb39fdaf02e2a90d784e4ed21 Lab-1# # cat /ifs/data/Isilon_Support/var_mirror_repair.md5 0881afeeb39fdaf02e2a90d784e4ed21
- Als de hash niet overeenkomt, downloadt u het script van de FTP-site en kopieert u het opnieuw naar het cluster. Als de hash overeenkomt, voert u de volgende opdracht uit als root:
lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh
- Het duurt meestal 5-10 minuten om het script uit te voeren. Dit kan langer duren bij grote (30+ knooppunten) of drukke clusters. Wanneer het script is voltooid, wordt gemeld of het is gelukt of dat er problemen zijn opgetreden.
Wanneer u het script start, ziet u de volgende uitvoer:
Lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh Full output can be found at: /ifs/data/Isilon_Support/var_mirror_repair.FULL_CLUSTER.2023-10-19T092522.csv Status: 0/4 Nodes checked, 0/4 var0 partitions, 0/4 var1 partitions
Naarmate het script vordert, wordt de statusregel bijgewerkt:
Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions
Wanneer het script is voltooid, ziet u het volgende:
Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions No issues were identified. Moving files to: var_mirror_repair.2023-10-19T092522.d Bundle Location: var_mirror_repair.2023-10-19T092522.tgz
Dit geeft aan dat alle getroffen knooppunten zijn gerepareerd en dat het script geen problemen had. Als de ontvangen uitvoer afwijkt van dit voorbeeld, neemt u contact op met Dell Support en verstrekt u de uitvoer en de logbestanden vanaf de bundellocatie.
Affected Products
Isilon F800, Isilon F810, Isilon Gen6, Isilon H400, Isilon H500, Isilon H5600, Isilon H600, PowerScale Archive A300, PowerScale Archive A3000, PowerScale Hybrid H700, PowerScale Hybrid H7000Products
PowerScale F200, PowerScale F600, PowerScale F900Article Properties
Article Number: 000213248
Article Type: Solution
Last Modified: 06 Jan 2026
Version: 21
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.