PowerScale: 'NFS: o servidor v4 retornou um erro de ID de sequência incorreto em uma sequência não confirmada'.
Summary: OneFS 9.3 e OneFS 9.4: O client NFSv4 relata erro: 'NFS: o servidor v4 retornou um erro de ID de sequência incorreto em uma sequência não confirmada'. Nas capturas de pacotes, a Dell Technologies também vê o seguinte erro: NFS4ERR_NO_GRACE ...
Symptoms
O PowerScale está no OneFS 9.3 ou 9.4, e os clients NFSv4 estão relatando erros como os seguintes:
Nov 18 13:00:22 kernel: NFS: v4 server returned a bad sequence-id error on an unconfirmed sequence 00000000c6d21f3b!
Nov 18 13:00:22 kernel: NFS: nfs4_reclaim_open_state: unhandled error -10026
Nov 18 13:00:22 kernel: NFSv4: state recovery failed for open file /test2.txt, error = -10026
Quando esses erros aparecem, o aplicativo que acessa o file system NFS trava, afetando a produção e exigindo intervenção manual algumas vezes por dia.
Mesmo depois que os clients NFS tiverem sido reinicializados, os clients ainda relatam os erros.
Nas capturas de pacote de nó ou client, você também pode ver os seguintes erros:
PCAP:
41 13:00:11.313563 10.205.224.32 10.205.224.12 NFS 302 V4 Call (Reply In 42) OPEN DH: 0x1eb1379b/
42 13:00:11.313804 10.205.224.12 10.205.224.32 NFS 122 V4 Reply (Call In 41) OPEN Status: NFS4ERR_NO_GRACE
43 13:00:11.314731 10.205.224.32 10.205.224.12 NFS 330 V4 Call (Reply In 44) OPEN DH: 0xa07785fa/test2.txt
44 13:00:11.314911 10.205.224.12 10.205.224.32 NFS 122 V4 Reply (Call In 43) OPEN Status: NFS4ERR_BAD_SEQIDCause
Esse problema é causado por um defeito conhecido: PSCALE-162845: Aceita o ID de sequência incrementada para a operação anterior com NFS4ERR_NO_GRACE or NFS4ERR_GRACE .
Todas as versões do NFSv4 são afetadas, não apenas a 4.1 e a 4.2.
O detalhe sobre o defeito é o seguinte:
O client está incrementando seu ID de sequência quando o OneFS não está esperando que ele faça isso. Portanto, o OneFS não incrementa o ID de sequência corretamente.
O client NFS parece estar incrementando monotonicamente o número de sequência para OPEN/CLOSE/other operações que incluem o NFS4ERR_NO_GRACE e NFS4ERR_GRACE . No entanto, o PowerScale não permitirá o ID de sequência incrementada se a operação anterior identificar o NFS4ERR_NO_GRACE or NFS4ERR_GRACE . Portanto, suponha que o PowerScale retorne o NFS4ERR_NO_GRACE/NFS4ERR_GRACE Erro de uma operação anterior. Isso leva a NFS4ERR_BAD_SEQID para a próxima operação de entrada, pois o PowerScale não espera um ID de sequência incrementado.
De acordo com NFSv4 RFC, não há definição para NFS4ERR_NO_GRACE/NFS4ERR_GRACE para não permitir valores incrementados.
Há uma distinção entre o Linux e o PowerScale em relação à lógica de id de sequência incremental para NFS4ERR_NO_GRACE Erros. Portanto, permitamos o incremento de seqence-id no código Isilon para alinhar com o código do Linux.
Resolution
A solução temporária é mover o fluxo de trabalho para o NFSv3.
OU
Instale o patch:GA: PSP-3035 PATCH: [9.4.0.11_GA-RUP_2023-01][Multiple User space and Kernel Fixes](January 2023)DA: PSP-3069 PATCH: [9.4.0.10_DA-CUSTOM_2022-12][9.4.0.10_GA-RUP_2022-12 + NFS Fix](VMWARE)