PowerScale: Geçersiz Dosya Tanımlayıcısına Sahip NFSv4 GETATTR İsteğinden NFS Çekirdek Dökümleri.
Summary: Nadir durumlarda, Ağ Dosya Sistemi (NFS) işlemi, geçersiz bir Dosya Tanımlayıcısı içeren bir NFSv4 GETATTR isteği nedeniyle düğümlerde sürekli olarak çekirdek dökümleri oluşturur. Sorun yalnızca iş akışı NFSv4 istemcileri Solaris işletim sistemini kullanırken bildirilmiştir. ...
Symptoms
NFS işlemi, aşağıdaki yığın izlemesiyle birden çok PowerScale düğümünde sürekli olarak çekirdek dökümü alır ve yeniden başlatılır:
2025-12-12T09:50:12.851358-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: [kern_sig.c:4043](pid 6400="nfs")(tid=103190) Stack trace:
2025-12-12T09:50:12.851392-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: Stack: --------------------------------------------------
2025-12-12T09:50:12.851397-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:Nfs4AttrGatherAttrs+0x516
2025-12-12T09:50:12.851401-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1150544965.Nfs4FillAttr+0x736
2025-12-12T09:50:12.851404-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1209865017.NfsProtoNfs4ProcGetattr+0x515
2025-12-12T09:50:12.851408-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1357219149.NfsProtoNfs4ProcCompound+0x18a2
2025-12-12T09:50:12.851412-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1895683854.NfsProtoNfs4Dispatch+0xa31
2025-12-12T09:50:12.851415-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:NfsExecContextCallback+0x61
2025-12-12T09:50:12.851419-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/liblwsched.so.0:WorkSparkMain+0x4f
2025-12-12T09:50:12.851422-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: /usr/likewise/lib/liblwbase.so.0:SparkMain+0x142
2025-12-12T09:50:12.851426-08:00 <0.5> powerscale01-28(id28) /boot/kernel.amd64/kernel: --------------------------------------------------
2025-12-12T09:50:12.851429-08:00 <0.6> powerscale01-28(id28) /boot/kernel.amd64/kernel: pid 6400 (nfs), jid 0, uid 0: exited on signal 11 from pid 0 (unknown) (core dumped)
OR
2023-03-01T09:18:00.403811+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: [kern_sig.c:4026](pid 71661="nfs")(tid=102404) Stack trace:
2023-03-01T09:18:00.403856+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: Stack: --------------------------------------------------
2023-03-01T09:18:00.403868+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:Nfs4AttrGatherAttrs+0x50a
2023-03-01T09:18:00.403879+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1150544965.Nfs4FillAttr+0x700
2023-03-01T09:18:00.403889+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1209865017.NfsProtoNfs4ProcGetattr+0x5e7
2023-03-01T09:18:00.403900+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1357219149.NfsProtoNfs4ProcCompound+0x1721
2023-03-01T09:18:00.403911+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace1895683854.NfsProtoNfs4Dispatch+0x402
2023-03-01T09:18:00.403921+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/lw-svcm/nfs.so:$dtrace2038417139.NfsProtoNfs4CallDispatch+0xd0
2023-03-01T09:18:00.403932+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: /usr/likewise/lib/liblwbase.so.0:SparkMain+0x141
2023-03-01T09:18:00.403943+01:00 <0.5> powerscale01-5(id6) /boot/kernel.amd64/kernel: --------------------------------------------------
2023-03-01T09:18:00.403953+01:00 <0.6> powerscale01-5(id6) /boot/kernel.amd64/kernel: pid 71661 (nfs), uid 0: exited on signal 11 from pid 0 (unknown) (core dumped)
Cause
Bu sorun, bir Solaris NFSv4 İstemci bir NFSv4 GETATTR NULL veya Geçersiz Dosya Tanımlayıcısı içeren istek.
Bu, NFS işleminin çekirdek dökümünü almasına ve bir saniye içinde kök dosya işleyicisi olan PowerScale düğümünde yeniden başlamasına neden olur GETATTRAma pExecContext > pExport NULL değildir.
Bugüne kadar, bu konuda şimdiye kadar yapılan tüm raporlar Solaris'i içeriyordu NFSv4 İstemci iş akışı. Ancak PowerScale Engineering, diğer UNIX veya Linux işletim sistemlerini kullanarak da sorunu çoğaltabilir. Kanıtlar ayrıca Solaris istemcilerinin autos veya automount özelliği, soruna neden olmaya daha yatkın olabilir.
Sorunu gidermek için yeni bir kusur oluşturuldu: PSCLDF-6198: Invalid Pointer pGattrCtx->pFilePosixInfo causes a core dump.
Resolution
Kalıcı Çözüm:
Düzeltmeyi içeren bir OneFS sürümüne yükseltin. PowerScale Mühendislik ekibi bu soruna yönelik bir yama üzerinde çalışıyor. Serbest bırakılması için kesin bir zaman yoktur.
Geçi -ci çözüm:
Kalıcı bir çözüm uygulanana kadar, etkiyi azaltmak için aşağıdaki geçici çözümler kullanılabilir:
- Tanımlayın
NFSv4NFS'nin çekirdek dökümüne neden olan istemciler.
Gerekirse Destek ekibi, içinde bulunan otomatik olarak oluşturulan çekirdek dökümleri aracılığıyla suçlu istemci IP adresini belirleyebilir /var/crash etkilenen düğümlerde. Manuel olarak çekirdek dökümü oluşturmayın. C Desteği, şurada bulunan sorundan oluşturulan çekirdek dökümünü gerektirir: /var/crash etkilenen düğümlerde. Destek, soruna neden olan istemcileri belirleme konusunda yardıma ihtiyaç duyulursa bir danışma üst birime iletebilir.
- Devre dışı bırakın
autofs/automountDell Technologies destek ekibinin sorunun konuyla ilgili olduğuna inanması nedeniyle Solaris istemcilerinde çalışır. Bunun yerine, yapılandırmayı kullanarak dışa aktarımları Solaris istemcilerine manuel olarak bağlayın./etc/vfstabistemcide. - Dell Technologies destek ekibi, soruna neden olan istemcileri belirledikten sonra NFS havuzundaki 1-2 düğümü askıya alarak NFS makinelerinin geri kalanı üzerindeki etkiyi azaltabilir. Müşteriler daha sonra sorunlu Solaris istemcilerini askıya alınan düğümlerin IP adreslerine (SmartConnect bölge adını veya FQDN'yi kullanmak yerine) doğrudan bağlanacak şekilde yapılandırabilir. Dell Technologies Destek, gerekirse bu prosedür konusunda yardımcı olabilir. Düğüm askıya alındığında, sorunlu Solaris istemcileri artık düğümlere IP adresine göre bağlanabilirken, diğer tüm NFS istemcilerinizden FQDN'ye yapılan YENİ bağlantıların bu düğüme bağlanması artık engellenir. Ancak, düğüme önceden var olan bağlantılar etkilenir. Yine, amaç, bir yama düzeltmesi uygulanana kadar, yalnızca bir veya iki düğümün NFS arka plan programlarının artık çekirdek dökümü olduğu için buradaki etkiyi azaltmaktır.
SmartConnect ağ havuzundan bir düğümü askıya alma adımları:
Örnek olarak düğüm 26'yı kullanma:
# isi network pools sc-suspend-nodes groupnet0.NFS_Subnet.NFS_Pool 26 ***where 26 is lnn #26 ####
Etkilenen her havuz için tekrarlayın.
Devam etmek için:
# isi network pools sc-resume-nodes groupnet0.NFS_Subnet.NFS_Pool 26 ***where 26 is lnn #26 ####
Etkilenen her havuz için tekrarlayın.