PowerScale:“NFS:v4 服务器在未确认的序列上返回错误的序列标识错误”。
Summary: OneFS 9.3 和 OneFS 9.4:NFSv4 客户端报告错误: “NFS:v4 服务器在未确认的序列上返回错误的序列标识错误”。 在数据包捕获中,Dell Technologies 还会看到以下错误: NFS4ERR_NO_GRACE
Symptoms
PowerScale 在 OneFS 9.3 或 9.4 上,NFSv4 客户端报告如下错误:
Nov 18 13:00:22 kernel: NFS: v4 server returned a bad sequence-id error on an unconfirmed sequence 00000000c6d21f3b!
Nov 18 13:00:22 kernel: NFS: nfs4_reclaim_open_state: unhandled error -10026
Nov 18 13:00:22 kernel: NFSv4: state recovery failed for open file /test2.txt, error = -10026
出现这些错误时,访问 NFS 文件系统的应用程序会崩溃,因此会影响生产,每天需要几次手动干预。
即使在 NFS 客户端重新启动后,客户端仍报告错误。
在客户端或节点数据包捕获中,您可能还会看到以下错误:
PCAP:
41 13:00:11.313563 10.205.224.32 10.205.224.12 NFS 302 V4 Call (Reply In 42) OPEN DH: 0x1eb1379b/
42 13:00:11.313804 10.205.224.12 10.205.224.32 NFS 122 V4 Reply (Call In 41) OPEN Status: NFS4ERR_NO_GRACE
43 13:00:11.314731 10.205.224.32 10.205.224.12 NFS 330 V4 Call (Reply In 44) OPEN DH: 0xa07785fa/test2.txt
44 13:00:11.314911 10.205.224.12 10.205.224.32 NFS 122 V4 Reply (Call In 43) OPEN Status: NFS4ERR_BAD_SEQIDCause
此问题由已知缺陷引起: PSCALE-162845管理此进程: 接受具有以下功能的上一个作的递增序列 ID: NFS4ERR_NO_GRACE or NFS4ERR_GRACE 错误,请参阅概述的步骤以帮助解决该问题。
NFSv4 的所有版本都会受到影响,而不仅仅是 4.1 和 4.2。
有关缺陷的详细信息如下所示:
客户端正在递增其序列 ID,而 OneFS 并不希望它们这样做。因此,OneFS 不会正确地递增序列 ID。
NFS 客户端似乎单调递增 的序列号 OPEN/CLOSE/other 作包括 NFS4ERR_NO_GRACE 和 NFS4ERR_GRACE 错误,请参阅概述的步骤以帮助解决该问题。但是,如果上一个作遇到 NFS4ERR_NO_GRACE or NFS4ERR_GRACE 错误,请参阅概述的步骤以帮助解决该问题。因此,假设 PowerScale 返回 NFS4ERR_NO_GRACE/NFS4ERR_GRACE 上一次作出错。这会导致 NFS4ERR_BAD_SEQID 用于下一个传入作,因为 PowerScale 不需要递增的序列 ID。
依据 NFSv4 RFC,没有定义 NFS4ERR_NO_GRACE/NFS4ERR_GRACE 以禁止递增值。
Linux 和 PowerScale 在 NFS4ERR_NO_GRACE 错误。因此,让我们允许增量 seqence-id 以与 Linux 代码保持一致。
Resolution
解决方法是将工作流移至 NFSv3。
或
安装修补程序:GA: PSP-3035 PATCH: [9.4.0.11_GA-RUP_2023-01][Multiple User space and Kernel Fixes](January 2023)DA: PSP-3069 PATCH: [9.4.0.10_DA-CUSTOM_2022-12][9.4.0.10_GA-RUP_2022-12 + NFS Fix](VMWARE)