PowerScale:無効なファイル ディスクリプターを使用したNFSv4 GETATTRリクエストからのNFSコア ダンプ。
Summary: まれに、無効なファイル記述子を持つNFSv4 GETATTRリクエストが原因で、ノード上でネットワーク ファイル システム(NFS)プロセスで継続的にコア ダンプが発生することがあります。この問題が報告されているのは、Solarisオペレーティング システムを使用しているワークフローNFSv4クライアントの場合のみです。
Symptoms
NFSプロセスは、次のスタック トレースを使用して、複数のPowerScaleノードで継続的にコア ダンプと再起動を行います。
2025-12-12T09:50:12.851358-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: [kern_sig.c:4043](pid 6400="nfs")(tid=103190) Stack trace:
2025-12-12T09:50:12.851392-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: Stack: --------------------------------------------------
2025-12-12T09:50:12.851397-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:Nfs4AttrGatherAttrs+0x516
2025-12-12T09:50:12.851401-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1150544965.Nfs4FillAttr+0x736
2025-12-12T09:50:12.851404-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1209865017.NfsProtoNfs4ProcGetattr+0x515
2025-12-12T09:50:12.851408-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1357219149.NfsProtoNfs4ProcCompound+0x18a2
2025-12-12T09:50:12.851412-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1895683854.NfsProtoNfs4Dispatch+0xa31
2025-12-12T09:50:12.851415-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:NfsExecContextCallback+0x61
2025-12-12T09:50:12.851419-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/liblwsched.so.0:WorkSparkMain+0x4f
2025-12-12T09:50:12.851422-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/liblwbase.so.0:SparkMain+0x142
2025-12-12T09:50:12.851426-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: --------------------------------------------------
2025-12-12T09:50:12.851429-08:00 <0.6> powerscale01-28(id28) /boot/kernel.amd64/kernel: pid 6400 (nfs), jid 0, uid 0: exited on signal 11 from pid 0 (unknown) (core dumped)
OR
2023-03-01T09:18:00.403811+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: [kern_sig.c:4026](pid 71661="nfs")(tid=102404) Stack trace:
2023-03-01T09:18:00.403856+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: Stack: --------------------------------------------------
2023-03-01T09:18:00.403868+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:Nfs4AttrGatherAttrs+0x50a
2023-03-01T09:18:00.403879+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1150544965.Nfs4FillAttr+0x700
2023-03-01T09:18:00.403889+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1209865017.NfsProtoNfs4ProcGetattr+0x5e7
2023-03-01T09:18:00.403900+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1357219149.NfsProtoNfs4ProcCompound+0x1721
2023-03-01T09:18:00.403911+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1895683854.NfsProtoNfs4Dispatch+0x402
2023-03-01T09:18:00.403921+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace2038417139.NfsProtoNfs4CallDispatch+0xd0
2023-03-01T09:18:00.403932+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/liblwbase.so.0:SparkMain+0x141
2023-03-01T09:18:00.403943+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: --------------------------------------------------
2023-03-01T09:18:00.403953+01:00 <0.6> powerscale01-5(id6) /boot/kernel.amd64/kernel: pid 71661 (nfs), uid 0: exited on signal 11 from pid 0 (unknown) (core dumped)
Cause
この問題は、Solaris NFSv4 クライアントは、 NFSv4 GETATTR リクエストにNULLまたは無効なファイル記述子が指定されています。
これにより、NFSプロセスがコア ダンプされ、PowerScaleノードで再起動され、ルート ファイル ハンドルが1秒で処理されます GETATTRだがしかし pExecContext > pExport がNULLではありません。
今日まで、この問題に関するすべての報告はSolarisに関係しています NFSv4 クライアント ワークフロー。ただし、PowerScaleエンジニアリングは、他のUNIXまたはLinuxオペレーティング システムを使用しても問題を再現できます。また、Solarisクライアントが autos または automount 機能が問題を引き起こす可能性が高くなります。
この問題に対処するために、新しい欠陥が作成されました。 PSCLDF-6198: Invalid Pointer pGattrCtx->pFilePosixInfo causes a core dumpの詳細を確認してください。
Resolution
恒久的な解決策:
修正を含むOneFSバージョンにアップグレードします。PowerScaleエンジニアリングは、この問題のパッチを開発中です。リリースの正確な時期は未定です
回避策:
恒久的な解決策が適用されるまでは、次の回避策を使用して影響を軽減できます。
- の特定
NFSv4NFSのコア ダンプを引き起こしているクライアント。
必要に応じて、サポートは、自動生成されたコア ダンプから原因となるクライアントのIPアドレスを特定できます。 /var/crash 影響を受けるノード上。コア ダンプを手動で生成しないでください。Cサポートでは、見つかった問題から生成されたコア ダンプが必要です。 /var/crash 影響を受けるノード上。問題の原因となっているクライアントを特定するために支援が必要な場合、サポートはコンサルティング エスカレーションを作成できます。
- 無効にする
autofs/automountデル・テクノロジーズ サポートは、これが問題に関連していると考えています。代わりに、次のように構成して、Solarisクライアントにエクスポートを手動でマウントします。/etc/vfstabクライアント上。 - Dell Technologiesサポートは、問題の原因となっているクライアントを特定したら、NFSプール内の1〜2個のノードを一時停止することで、残りのNFSマシンへの影響を軽減できます。お客様は、問題のあるSolarisクライアントを構成して、(SmartConnectゾーン名またはFQDNを使用するのではなく)サスペンドされたノードのIPアドレスに直接接続できます。必要に応じて、デル・テクノロジーズのサポートがこの手順を支援いたします。ノードをサスペンドすると、問題のあるSolarisクライアントはIPアドレスでノードに接続できるようになりますが、他のすべてのNFSクライアントからFQDNへの新規接続はこのノードに接続できなくなります。ただし、ノードへの既存の接続は影響を受けます。繰り返しになりますが、目標は、パッチ修正が適用されるまでの影響を軽減することです。1つまたは2つのノードのNFSデーモンのみがコア ダンプになります。
SmartConnectネットワーク プールからノードを 一時停止 する手順:
ノード26を例にとると、次のようになります。
# isi network pools sc-suspend-nodes groupnet0.NFS_Subnet.NFS_Pool 26 ***where 26 is lnn #26 ####
影響を受けるプールごとに繰り返します。
再開するには、次の手順を実行します。
# isi network pools sc-resume-nodes groupnet0.NFS_Subnet.NFS_Pool 26 ***where 26 is lnn #26 ####
影響を受けるプールごとに繰り返します。