PowerScale: NFS Core dumper fra NFSv4 GETATTR-anmodning med en ugyldig filbeskrivelse.
Summary: I sjældne tilfælde kernedumpes NFS-processen (Network File System) kontinuerligt på noder på grund af en NFSv4 GETATTR-anmodning med en ugyldig filbeskrivelse. Problemet er kun blevet rapporteret, når workflow NFSv4-klienter bruger Solaris-operativsystemet. ...
Symptoms
NFS-processen kernedumper og genstarter kontinuerligt på flere PowerScale-noder med følgende staksporing:
2025-12-12T09:50:12.851358-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: [kern_sig.c:4043](pid 6400="nfs")(tid=103190) Stack trace:
2025-12-12T09:50:12.851392-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: Stack: --------------------------------------------------
2025-12-12T09:50:12.851397-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:Nfs4AttrGatherAttrs+0x516
2025-12-12T09:50:12.851401-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1150544965.Nfs4FillAttr+0x736
2025-12-12T09:50:12.851404-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1209865017.NfsProtoNfs4ProcGetattr+0x515
2025-12-12T09:50:12.851408-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1357219149.NfsProtoNfs4ProcCompound+0x18a2
2025-12-12T09:50:12.851412-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1895683854.NfsProtoNfs4Dispatch+0xa31
2025-12-12T09:50:12.851415-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:NfsExecContextCallback+0x61
2025-12-12T09:50:12.851419-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/liblwsched.so.0:WorkSparkMain+0x4f
2025-12-12T09:50:12.851422-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/liblwbase.so.0:SparkMain+0x142
2025-12-12T09:50:12.851426-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: --------------------------------------------------
2025-12-12T09:50:12.851429-08:00 <0.6> powerscale01-28(id28) /boot/kernel.amd64/kernel: pid 6400 (nfs), jid 0, uid 0: exited on signal 11 from pid 0 (unknown) (core dumped)
OR
2023-03-01T09:18:00.403811+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: [kern_sig.c:4026](pid 71661="nfs")(tid=102404) Stack trace:
2023-03-01T09:18:00.403856+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: Stack: --------------------------------------------------
2023-03-01T09:18:00.403868+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:Nfs4AttrGatherAttrs+0x50a
2023-03-01T09:18:00.403879+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1150544965.Nfs4FillAttr+0x700
2023-03-01T09:18:00.403889+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1209865017.NfsProtoNfs4ProcGetattr+0x5e7
2023-03-01T09:18:00.403900+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1357219149.NfsProtoNfs4ProcCompound+0x1721
2023-03-01T09:18:00.403911+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1895683854.NfsProtoNfs4Dispatch+0x402
2023-03-01T09:18:00.403921+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace2038417139.NfsProtoNfs4CallDispatch+0xd0
2023-03-01T09:18:00.403932+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/liblwbase.so.0:SparkMain+0x141
2023-03-01T09:18:00.403943+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: --------------------------------------------------
2023-03-01T09:18:00.403953+01:00 <0.6> powerscale01-5(id6) /boot/kernel.amd64/kernel: pid 71661 (nfs), uid 0: exited on signal 11 from pid 0 (unknown) (core dumped)
Cause
Dette problem opstår, når en Solaris NFSv4 Klienten sender en NFSv4 GETATTR anmodning med en NULL- eller ugyldig filbeskrivelse.
Dette får NFS-processen til at kernedumpe og genstarte på PowerScale-noden, der håndterer et rodfilhåndtag på et sekund GETATTRMen pExecContext > pExport er ikke NULL.
Til dato har alle rapporter inden for dette spørgsmål hidtil involveret Solaris NFSv4 klient-arbejdsgang. PowerScale Engineering kan dog også replikere problemet ved hjælp af andre UNIX- eller Linux-operativsystemer. Der er også dokumentation for, at Solaris-klienter, der anvender autos eller automount -funktionen kan være mere tilbøjelig til at forårsage problemet.
Der er oprettet en ny defekt for at løse problemet: PSCLDF-6198: Invalid Pointer pGattrCtx->pFilePosixInfo causes a core dump.
Resolution
Permanent løsning:
Opgrader til en OneFS-version, som indeholder rettelsen. PowerScale Engineering arbejder på en programrettelse til problemet. Der er ikke noget præcist tidspunkt for udgivelse.
Løsning:
Indtil en permanent løsning anvendes, kan følgende løsninger bruges til at afbøde påvirkningen:
- Identificer
NFSv4klienter, der får NFS til kernedump.
Hvis det er nødvendigt, kan Support identificere den skyldige klients IP-adresse gennem de autogenererede kernedumps, der findes i /var/crash på de berørte noder. Fremstil ikke et kernedump manuelt. C Support kræver den genererede kernedump fra det problem, der blev fundet i /var/crash på de berørte noder. Support kan oprette en konsultationseskalering, hvis der er behov for hjælp til at identificere de klienter, der forårsager problemet.
- Deaktiver ikonet
autofs/automountpå Solaris-klienterne, da Dell Technologies-support mener, at dette er relateret til problemet. I stedet skal du manuelt montere eksporterne på Solaris-klienterne ved at konfigurere/etc/vfstabpå klienten. - Når Dell Technologies Support har identificeret de klienter, der forårsager problemet, kan de afbøde påvirkningen af resten af NFS-maskinerne ved at suspendere 1-2 noder i NFS-puljen. Kunderne kan derefter konfigurere de problematiske Solaris-klienter til at oprette forbindelse direkte til IP-adresserne (i stedet for at bruge SmartConnect-zonenavnet eller FQDN) på de suspenderede noder. Dell Technologies Support kan hjælpe med denne procedure, hvis det er nødvendigt. Når noden er suspenderet, kan de problematiske Solaris-klienter nu oprette forbindelse til noderne via IP-adresse, mens eventuelle NYE forbindelser til FQDN fra alle dine andre NFS-klienter nu forhindres i at oprette forbindelse til denne node. Imidlertid påvirkes eventuelle allerede eksisterende forbindelser til noden. Igen er målet at mindske virkningen her, indtil en patch-rettelse anvendes, idet kun en eller to nodes NFS-dæmoner nu kernedumper.
Trin til at suspendere en node fra en SmartConnect-netværkspulje:
Brug node 26 som eksempel:
# isi network pools sc-suspend-nodes groupnet0.NFS_Subnet.NFS_Pool 26 ***where 26 is lnn #26 ####
Gentag for hver berørt pulje.
Sådan genoptages følgende:
# isi network pools sc-resume-nodes groupnet0.NFS_Subnet.NFS_Pool 26 ***where 26 is lnn #26 ####
Gentag for hver berørt pulje.