PowerScale: NFS-coredumps van NFSv4 GETATTR-aanvraag met een ongeldige bestandsdescriptor.
Summary: In zeldzame gevallen maakt het NFS-proces (Network File System) continu coredumps op knooppunten als gevolg van een NFSv4 GETATTR-aanvraag met een ongeldige bestandsbeschrijving. Het probleem is alleen gemeld bij workflows van NFSv4-clients met behulp van het Solaris-besturingssysteem. ...
Symptoms
Het NFS-proces coredumpt en start voortdurend opnieuw op meerdere PowerScale knooppunten met de volgende stacktrace:
2025-12-12T09:50:12.851358-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: [kern_sig.c:4043](pid 6400="nfs")(tid=103190) Stack trace:
2025-12-12T09:50:12.851392-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: Stack: --------------------------------------------------
2025-12-12T09:50:12.851397-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:Nfs4AttrGatherAttrs+0x516
2025-12-12T09:50:12.851401-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1150544965.Nfs4FillAttr+0x736
2025-12-12T09:50:12.851404-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1209865017.NfsProtoNfs4ProcGetattr+0x515
2025-12-12T09:50:12.851408-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1357219149.NfsProtoNfs4ProcCompound+0x18a2
2025-12-12T09:50:12.851412-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1895683854.NfsProtoNfs4Dispatch+0xa31
2025-12-12T09:50:12.851415-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:NfsExecContextCallback+0x61
2025-12-12T09:50:12.851419-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/liblwsched.so.0:WorkSparkMain+0x4f
2025-12-12T09:50:12.851422-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/liblwbase.so.0:SparkMain+0x142
2025-12-12T09:50:12.851426-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: --------------------------------------------------
2025-12-12T09:50:12.851429-08:00 <0.6> powerscale01-28(id28) /boot/kernel.amd64/kernel: pid 6400 (nfs), jid 0, uid 0: exited on signal 11 from pid 0 (unknown) (core dumped)
OR
2023-03-01T09:18:00.403811+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: [kern_sig.c:4026](pid 71661="nfs")(tid=102404) Stack trace:
2023-03-01T09:18:00.403856+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: Stack: --------------------------------------------------
2023-03-01T09:18:00.403868+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:Nfs4AttrGatherAttrs+0x50a
2023-03-01T09:18:00.403879+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1150544965.Nfs4FillAttr+0x700
2023-03-01T09:18:00.403889+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1209865017.NfsProtoNfs4ProcGetattr+0x5e7
2023-03-01T09:18:00.403900+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1357219149.NfsProtoNfs4ProcCompound+0x1721
2023-03-01T09:18:00.403911+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1895683854.NfsProtoNfs4Dispatch+0x402
2023-03-01T09:18:00.403921+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace2038417139.NfsProtoNfs4CallDispatch+0xd0
2023-03-01T09:18:00.403932+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/liblwbase.so.0:SparkMain+0x141
2023-03-01T09:18:00.403943+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: --------------------------------------------------
2023-03-01T09:18:00.403953+01:00 <0.6> powerscale01-5(id6) /boot/kernel.amd64/kernel: pid 71661 (nfs), uid 0: exited on signal 11 from pid 0 (unknown) (core dumped)
Cause
Dit probleem doet zich voor wanneer een Solaris NFSv4 Client stuurt een NFSv4 GETATTR aanvraag met een NULL of Invalid File Descriptor.
Hierdoor wordt het NFS-proces in een seconde opnieuw opgestart op het PowerScale knooppunt dat een rootbestandshandle verwerkt GETATTRMaar pExecContext > pExport is niet NULL.
Tot op heden hebben alle rapporten op het gebied van deze kwestie tot nu toe betrekking op Solaris NFSv4 Workflow van de klant. PowerScale Engineering kan het probleem echter ook repliceren met andere UNIX- of Linux-besturingssystemen. Er zijn ook aanwijzingen dat Solaris-klanten die de autos of automount functie is mogelijk vatbaarder voor het veroorzaken van het probleem.
Er is een nieuw defect gemaakt om het probleem op te lossen: PSCLDF-6198: Invalid Pointer pGattrCtx->pFilePosixInfo causes a core dump.
Resolution
Permanente oplossing:
Upgrade naar een OneFS-versie waarin de oplossing is opgenomen. PowerScale Engineering werkt aan een patch voor het probleem. Er is geen exacte tijd voor release.
Oplossing:
Totdat een permanente oplossing wordt toegepast, kunnen de volgende tijdelijke oplossingen worden gebruikt om de gevolgen te beperken:
- Identificeer de
NFSv4clients die ervoor zorgen dat NFS wordt gecoredumpt.
Indien nodig kan Support het IP-adres van de client identificeren via de automatisch gegenereerde coredumps in /var/crash op de getroffen knooppunten. Produceer geen coredump met de handmatigheid. C-support vereist de gegenereerde coredump van het probleem in /var/crash op de getroffen knooppunten. Support kan een consultescalatie creëren als er hulp nodig is bij het identificeren van de clients die het probleem veroorzaken.
- Schakel de
autofs/automountfunctie op de Solaris-clients, aangezien Dell Technologies-support van mening is dat dit verband houdt met het probleem. In plaats daarvan koppelt u de exports handmatig op de Solaris-clients door deze te configureren/etc/vfstabop de cliënt. - Zodra Dell Technologies Support de clients heeft geïdentificeerd die het probleem veroorzaken, kunnen ze de impact op de rest van de NFS-machines beperken door 1-2 knooppunten in de NFS-pool op te schorten. Klanten kunnen vervolgens de problematische Solaris-clients configureren om rechtstreeks verbinding te maken met de IP-adressen (in plaats van de SmartConnect-zonenaam of FQDN te gebruiken) van de opgeschorte knooppunten. Dell Technologies Support kan indien nodig helpen bij deze procedure. Als het knooppunt is onderbroken, kunnen de problematische Solaris-clients nu op basis van het IP-adres verbinding maken met de knooppunten, terwijl NIEUWE verbindingen met de FQDN van al uw andere NFS-clients nu geen verbinding kunnen maken met dit knooppunt. Alle reeds bestaande verbindingen met het knooppunt worden echter beïnvloed. Nogmaals, het doel is om de impact hier te verminderen, totdat er een patchfix wordt toegepast, in die zin dat slechts één of twee NFS-daemons van knooppunten nu core dumpen.
Stappen voor het onderbreken van een knooppunt uit een SmartConnect-netwerkgroep:
We gebruiken knooppunt 26 als voorbeeld:
# isi network pools sc-suspend-nodes groupnet0.NFS_Subnet.NFS_Pool 26 ***where 26 is lnn #26 ####
Herhaal dit voor elke getroffen pool.
Om te hervatten:
# isi network pools sc-resume-nodes groupnet0.NFS_Subnet.NFS_Pool 26 ***where 26 is lnn #26 ####
Herhaal dit voor elke getroffen pool.