PowerScale: NFS Core Dumps fra NFSv4 GETATTR Forespørsel med ugyldig filbeskrivelse.
Summary: I sjeldne tilfeller behandler Network File System (NFS) kontinuerlig kjernedumper på noder på grunn av en NFSv4 GETATTR-forespørsel med en ugyldig filbeskrivelse. Problemet er bare rapportert når arbeidsflyt NFSv4-klienter bruker Solaris-operativsystemet. ...
Symptoms
NFS-prosessen kjernedumper og starter på nytt kontinuerlig på flere PowerScale-noder med følgende stakksporing:
2025-12-12T09:50:12.851358-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: [kern_sig.c:4043](pid 6400="nfs")(tid=103190) Stack trace:
2025-12-12T09:50:12.851392-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: Stack: --------------------------------------------------
2025-12-12T09:50:12.851397-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:Nfs4AttrGatherAttrs+0x516
2025-12-12T09:50:12.851401-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1150544965.Nfs4FillAttr+0x736
2025-12-12T09:50:12.851404-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1209865017.NfsProtoNfs4ProcGetattr+0x515
2025-12-12T09:50:12.851408-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1357219149.NfsProtoNfs4ProcCompound+0x18a2
2025-12-12T09:50:12.851412-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1895683854.NfsProtoNfs4Dispatch+0xa31
2025-12-12T09:50:12.851415-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:NfsExecContextCallback+0x61
2025-12-12T09:50:12.851419-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/liblwsched.so.0:WorkSparkMain+0x4f
2025-12-12T09:50:12.851422-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/liblwbase.so.0:SparkMain+0x142
2025-12-12T09:50:12.851426-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: --------------------------------------------------
2025-12-12T09:50:12.851429-08:00 <0.6> powerscale01-28(id28) /boot/kernel.amd64/kernel: pid 6400 (nfs), jid 0, uid 0: exited on signal 11 from pid 0 (unknown) (core dumped)
OR
2023-03-01T09:18:00.403811+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: [kern_sig.c:4026](pid 71661="nfs")(tid=102404) Stack trace:
2023-03-01T09:18:00.403856+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: Stack: --------------------------------------------------
2023-03-01T09:18:00.403868+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:Nfs4AttrGatherAttrs+0x50a
2023-03-01T09:18:00.403879+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1150544965.Nfs4FillAttr+0x700
2023-03-01T09:18:00.403889+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1209865017.NfsProtoNfs4ProcGetattr+0x5e7
2023-03-01T09:18:00.403900+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1357219149.NfsProtoNfs4ProcCompound+0x1721
2023-03-01T09:18:00.403911+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1895683854.NfsProtoNfs4Dispatch+0x402
2023-03-01T09:18:00.403921+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace2038417139.NfsProtoNfs4CallDispatch+0xd0
2023-03-01T09:18:00.403932+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/liblwbase.so.0:SparkMain+0x141
2023-03-01T09:18:00.403943+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: --------------------------------------------------
2023-03-01T09:18:00.403953+01:00 <0.6> powerscale01-5(id6) /boot/kernel.amd64/kernel: pid 71661 (nfs), uid 0: exited on signal 11 from pid 0 (unknown) (core dumped)
Cause
Dette problemet oppstår når en Solaris NFSv4 Klienten sender en NFSv4 GETATTR forespørsel med NULL eller ugyldig filbeskrivelse.
Dette fører til at NFS-prosessen kjernedumper og starter på nytt på PowerScale-noden, og håndterer en rotfilreferanse på ett sekund GETATTRmen pExecContext > pExport er ikke NULL.
Til dags dato har alle rapporter innen dette problemet så langt involvert Solaris NFSv4 klient arbeidsflyt. PowerScale Engineering kan imidlertid gjenskape problemet ved hjelp av andre UNIX- eller Linux-operativsystemer. Bevis indikerer også at Solaris-klienter som bruker autos eller automount -funksjonen kan være mer utsatt for å forårsake problemet.
En ny defekt er opprettet for å løse problemet: PSCLDF-6198: Invalid Pointer pGattrCtx->pFilePosixInfo causes a core dump.
Resolution
Permanent løsning:
Oppgrader til en OneFS-versjon som inkluderer feilrettingen. PowerScale Engineering arbeider med en oppdatering for problemet. Det er ikke noe eksakt tidspunkt for utgivelse.
Løsningen:
Inntil en permanent løsning er tatt i bruk, kan følgende midlertidige løsninger brukes til å redusere innvirkningen:
- Identifiser
NFSv4klienter som forårsaker at NFS kjernedumper.
Om nødvendig kan kundestøtten identifisere den skyldige klientens IP-adresse gjennom de autogenererte kjernedumpene som finnes i /var/crash på de berørte noder. Ikke lag en kjernedump manuelt. C-støtte krever generert kjernedump fra problemet som finnes i /var/crash på de berørte noder. Kundestøtte kan opprette en konsultasjonseskalering hvis det er nødvendig med hjelp til å identifisere klientene som forårsaker problemet.
- Deaktiver
autofs/automountfunksjon på Solaris-klientene ettersom Dell Technologies-støtte mener at dette er relatert til problemet. Monter i stedet eksporten manuelt på Solaris-klientene ved å konfigurere/etc/vfstabpå klienten. - Når Dell Technologies Support har identifisert klientene som forårsaker problemet, kan de redusere innvirkningen på resten av NFS-maskinene ved å suspendere 1–2 noder i NFS-utvalget. Kunder kan deretter konfigurere de problematiske Solaris-klientene til å koble direkte til IP-adressene (i stedet for å bruke SmartConnect-sonenavnet eller FQDN) til de suspenderte nodene. Dell Technologies-kundestøtte kan hjelpe deg med denne prosedyren om nødvendig. Med noden suspendert, kan de problematiske Solaris-klientene nå koble til nodene via IP-adresse, mens eventuelle NYE tilkoblinger til FQDN fra alle dine andre NFS-klienter nå er forhindret fra å koble til denne noden. Alle eksisterende tilkoblinger til noden påvirkes imidlertid. Igjen er målet å redusere virkningen her, til en patch-løsning brukes, ved at bare en eller to nodes NFS-demoner nå kjernedumper.
Fremgangsmåte for å utestenge en node fra et SmartConnect-nettverksutvalg:
For å bruke node 26 som eksempel:
# isi network pools sc-suspend-nodes groupnet0.NFS_Subnet.NFS_Pool 26 ***where 26 is lnn #26 ####
Gjenta for hvert berørte basseng.
Slik fortsetter du:
# isi network pools sc-resume-nodes groupnet0.NFS_Subnet.NFS_Pool 26 ***where 26 is lnn #26 ####
Gjenta for hvert berørte basseng.