PowerScale: NFS Core Dumps fra NFSv4 GETATTR Forespørsel med ugyldig filbeskrivelse.
Summary: I sjeldne tilfeller behandler Network File System (NFS) kontinuerlig kjernedumper på noder på grunn av en NFSv4 GETATTR-forespørsel med en ugyldig filbeskrivelse. Problemet er bare rapportert når arbeidsflyt NFSv4-klienter bruker Solaris-operativsystemet. ...
Symptoms
NFS-prosessen kjernedumper og starter på nytt kontinuerlig på flere PowerScale-noder med følgende stakksporing:
2025-12-12T09:50:12.851358-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: [kern_sig.c:4043](pid 6400="nfs")(tid=103190) Stack trace:
2025-12-12T09:50:12.851392-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: Stack: --------------------------------------------------
2025-12-12T09:50:12.851397-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:Nfs4AttrGatherAttrs+0x516
2025-12-12T09:50:12.851401-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1150544965.Nfs4FillAttr+0x736
2025-12-12T09:50:12.851404-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1209865017.NfsProtoNfs4ProcGetattr+0x515
2025-12-12T09:50:12.851408-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1357219149.NfsProtoNfs4ProcCompound+0x18a2
2025-12-12T09:50:12.851412-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1895683854.NfsProtoNfs4Dispatch+0xa31
2025-12-12T09:50:12.851415-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:NfsExecContextCallback+0x61
2025-12-12T09:50:12.851419-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/liblwsched.so.0:WorkSparkMain+0x4f
2025-12-12T09:50:12.851422-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/liblwbase.so.0:SparkMain+0x142
2025-12-12T09:50:12.851426-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: --------------------------------------------------
2025-12-12T09:50:12.851429-08:00 <0.6> powerscale01-28(id28) /boot/kernel.amd64/kernel: pid 6400 (nfs), jid 0, uid 0: exited on signal 11 from pid 0 (unknown) (core dumped)
OR
2023-03-01T09:18:00.403811+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: [kern_sig.c:4026](pid 71661="nfs")(tid=102404) Stack trace:
2023-03-01T09:18:00.403856+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: Stack: --------------------------------------------------
2023-03-01T09:18:00.403868+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:Nfs4AttrGatherAttrs+0x50a
2023-03-01T09:18:00.403879+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1150544965.Nfs4FillAttr+0x700
2023-03-01T09:18:00.403889+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1209865017.NfsProtoNfs4ProcGetattr+0x5e7
2023-03-01T09:18:00.403900+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1357219149.NfsProtoNfs4ProcCompound+0x1721
2023-03-01T09:18:00.403911+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1895683854.NfsProtoNfs4Dispatch+0x402
2023-03-01T09:18:00.403921+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace2038417139.NfsProtoNfs4CallDispatch+0xd0
2023-03-01T09:18:00.403932+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/liblwbase.so.0:SparkMain+0x141
2023-03-01T09:18:00.403943+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: --------------------------------------------------
2023-03-01T09:18:00.403953+01:00 <0.6> powerscale01-5(id6) /boot/kernel.amd64/kernel: pid 71661 (nfs), uid 0: exited on signal 11 from pid 0 (unknown) (core dumped)
Cause
Dette problemet oppstår når en Solaris NFSv4 Klienten sender en sammensatt forespørsel som inneholder ni operasjoner (PUTFH, SAVEFH, LOOKUP, GETFH, GETATTR, RESTOREFH, NVERIFY, GETATTR, ACCESS). Under behandling av GETATTR Operasjon serverkallene Nfs4AttrGatherAttrs, som dereferanser pGattrCtx->pFilePosixInfo->Uid. I krasjdumpen pGattrCtx er en gyldig peker, men pFilePosixInfo er NULL, noe som fører til en segmenteringsfeil (signal 11) og en kjernedump. Feilen har blitt reprodusert, sporet, og en reparasjon er under utvikling (status pågår).
Til dags dato har alle rapporter innen dette problemet så langt involvert Solaris NFSv4 klient arbeidsflyt. PowerScale Engineering kan imidlertid gjenskape problemet ved hjelp av andre UNIX- eller Linux-operativsystemer. Bevis indikerer også at Solaris-klienter som bruker autos eller automount -funksjonen kan være mer utsatt for å forårsake problemet.
En ny defekt er opprettet for å løse problemet: PSCLDF-6198: Invalid Pointer pGattrCtx->pFilePosixInfo causes a core dump.
Resolution
Permanent løsning:
Oppgrader til en av disse kommende OneFS-versjonene som inkluderer feilrettingen:
- OneFS 9.10.1.8 ((9.10.1.8 skal være klar rundt slutten av juni 2026)
- OneFS 9.14 (Utgivelsesdato venter)
Løsningen:
Inntil en permanent løsning er tatt i bruk, kan følgende midlertidige løsninger brukes til å redusere innvirkningen:
- Identifiser
NFSv4klienter som forårsaker at NFS kjernedumper.
Om nødvendig kan kundestøtten identifisere den skyldige klientens IP-adresse gjennom de autogenererte kjernedumpene som finnes i /var/crash på de berørte noder. Ikke lag en kjernedump manuelt. C-støtte krever generert kjernedump fra problemet som finnes i /var/crash på de berørte noder. Kundestøtte kan opprette en konsultasjonseskalering hvis det er nødvendig med hjelp til å identifisere klientene som forårsaker problemet.
- Deaktiver
autofs/automountfunksjon på Solaris-klientene ettersom Dell Technologies-støtte mener at dette er relatert til problemet. Monter i stedet eksporten manuelt på Solaris-klientene ved å konfigurere/etc/vfstabpå klienten. - Når Dell Technologies Support har identifisert klientene som forårsaker problemet, kan de redusere innvirkningen på resten av NFS-maskinene ved å suspendere 1–2 noder i NFS-utvalget. Kunder kan deretter konfigurere de problematiske Solaris-klientene til å koble direkte til IP-adressene (i stedet for å bruke SmartConnect-sonenavnet eller FQDN) til de suspenderte nodene. Dell Technologies-kundestøtte kan hjelpe deg med denne prosedyren om nødvendig. Med noden suspendert, kan de problematiske Solaris-klientene nå koble til nodene via IP-adresse, mens eventuelle NYE tilkoblinger til FQDN fra alle dine andre NFS-klienter nå er forhindret fra å koble til denne noden. Alle eksisterende tilkoblinger til noden påvirkes imidlertid. Igjen er målet å redusere virkningen her, til en patch-løsning brukes, ved at bare en eller to nodes NFS-demoner nå kjernedumper.
Fremgangsmåte for å utestenge en node fra et SmartConnect-nettverksutvalg:
For å bruke node 26 som eksempel:
# isi network pools sc-suspend-nodes groupnet0.NFS_Subnet.NFS_Pool 26 ***where 26 is lnn #26 ####
Gjenta for hvert berørte basseng.
Slik fortsetter du:
# isi network pools sc-resume-nodes groupnet0.NFS_Subnet.NFS_Pool 26 ***where 26 is lnn #26 ####
Gjenta for hvert berørte basseng.