PowerScale:「NFS: v4 伺服器在未經確認的序列上傳回錯誤的序列 ID 錯誤」。
Summary: OneFS 9.3 和 OneFS 9.4:NFSv4 用戶端報告錯誤: 「NFS: v4 伺服器在未經確認的序列上傳回錯誤的序列 ID 錯誤」。 在封包擷取中,Dell Technologies 也會看到下列錯誤: NFS4ERR_NO_GRACE
Symptoms
PowerScale 在 OneFS 9.3 或 9.4 上,NFSv4 用戶端報告如下錯誤:
Nov 18 13:00:22 kernel: NFS: v4 server returned a bad sequence-id error on an unconfirmed sequence 00000000c6d21f3b!
Nov 18 13:00:22 kernel: NFS: nfs4_reclaim_open_state: unhandled error -10026
Nov 18 13:00:22 kernel: NFSv4: state recovery failed for open file /test2.txt, error = -10026
當出現這些錯誤時,訪問NFS檔案系統的應用程式崩潰,因此它會影響生產,並且需要每天手動干預幾次。
即使在 NFS 用戶端重新開機後,用戶端仍會報告錯誤。
在用戶端或節點資料包捕獲中,您還可能看到以下錯誤:
PCAP:
41 13:00:11.313563 10.205.224.32 10.205.224.12 NFS 302 V4 Call (Reply In 42) OPEN DH: 0x1eb1379b/
42 13:00:11.313804 10.205.224.12 10.205.224.32 NFS 122 V4 Reply (Call In 41) OPEN Status: NFS4ERR_NO_GRACE
43 13:00:11.314731 10.205.224.32 10.205.224.12 NFS 330 V4 Call (Reply In 44) OPEN DH: 0xa07785fa/test2.txt
44 13:00:11.314911 10.205.224.12 10.205.224.32 NFS 122 V4 Reply (Call In 43) OPEN Status: NFS4ERR_BAD_SEQIDCause
此問題是由已知缺陷引起的: PSCALE-162845: 接受先前作業的遞增序列 ID NFS4ERR_NO_GRACE or NFS4ERR_GRACE 錯誤。
所有版本的 NFSv4 都會受到影響,而不僅僅是 4.1 和 4.2。
瑕疵的詳細資料如下:
當 OneFS 未預期時,用戶端會遞增其順序 ID。因此,OneFS 無法正確遞增順序 ID。
NFS 用戶端似乎單調遞增 的序列號 OPEN/CLOSE/other 包括 NFS4ERR_NO_GRACE 和 NFS4ERR_GRACE 錯誤。但是,如果先前作業發生 NFS4ERR_NO_GRACE or NFS4ERR_GRACE 錯誤。因此,假設 PowerScale 傳回 NFS4ERR_NO_GRACE/NFS4ERR_GRACE 先前操作發生錯誤。這導致 NFS4ERR_BAD_SEQID 的下一個傳入作業,因為 PowerScale 不需要遞增的順序 ID。
根據 NFSv4 RFC,沒有定義 NFS4ERR_NO_GRACE/NFS4ERR_GRACE 以禁止遞增值。
Linux 和 PowerScale 在遞增順序 ID 邏輯方面有區別: NFS4ERR_NO_GRACE 錯誤。因此,讓我們允許增加 seqence-id 以與 Linux 程式碼對齊。
Resolution
因應措施是將工作流程移至 NFSv3。
或
安裝修補程式:GA: PSP-3035 PATCH: [9.4.0.11_GA-RUP_2023-01][Multiple User space and Kernel Fixes](January 2023)DA: PSP-3069 PATCH: [9.4.0.10_DA-CUSTOM_2022-12][9.4.0.10_GA-RUP_2022-12 + NFS Fix](VMWARE)