Dell Unity : Les noms d’hôte en double provoquent des problèmes de performances dans l’environnement NFSv4 (corrigible par l’utilisateur)
Résumé: Les clients NFSv4.1 partageant le même nom d’hôte peuvent rencontrer des fermetures et des récréations de sessions fréquentes. Cela se produit, car le protocole NFSv4.1 utilise le nom d’hôte dans le cadre de l’identifiant unique du client (Client Owner). Lorsque plusieurs hôtes utilisent le même ID, le serveur de stockage (par exemple, Dell Unity) les perçoit comme étant le même client qui tente de rétablir une connexion, ce qui entraîne une boucle de « chapitement de session » et des blocages d’E/S potentiels. ...
Symptômes
Côté client : Les utilisateurs signalent une dégradation importante des performances NFS, en particulier une latence élevée lors des opérations de fichiers de petite taille.
Côté Unity : Le journal indique que le serveur NAS déclenche fréquemment checkReplay logique, indiquant qu’il reçoit des demandes avec des ID de séquence (seqid) qui, selon lui, ont déjà été traités.
2026/03/23-09:22:31.571765 3 7FCE8B3CF705 sade:NFS: 3:[NAS_server] checkReplay: sequence replay slotid 0 seqid 0x2
2026/03/23-09:22:31.571948 177 7FCE8AB4F703 sade:NFS: 3:[NAS_server] checkReplay: sequence replay slotid 0 seqid 0x3
2026/03/23-09:22:31.571969 15 7FCE8AE7F701 sade:NFS: 3:[NAS_server] checkReplay: sequence replay slotid 1 seqid 0x1
2026/03/23-09:22:33.950467 94K 7FCE8E57B703 sade:NFS: 3:[NAS_server] checkReplay: sequence replay slotid 0 seqid 0x1
2026/03/23-09:22:33.950614 142 7FCE8E24F702 sade:NFS: 3:[NAS_server] checkReplay: sequence replay slotid 0 seqid 0x2
2026/03/23-09:22:33.950780 159 7FCE8DEDA705 sade:NFS: 3:[NAS_server] checkReplay: sequence replay slotid 0 seqid 0x3
2026/03/23-09:22:33.950793 8 7FCE8E22A702 sade:NFS: 3:[NAS_server] checkReplay: sequence replay slotid 1 seqid 0x1
2026/03/23-09:22:36.025980 169K 7FCE8C9FD704 sade:NFS: 3:[NAS_server] checkReplay: sequence replay slotid 0 seqid 0x1
2026/03/23-09:22:36.026291 305 7FCE8C9B9704 sade:NFS: 3:[NAS_server] checkReplay: sequence replay slotid 0 seqid 0x3
Réseau : Les captures de paquets identifient une collision d’ID client entre plusieurs adresses IP distinctes (10.10.1.8 et 10.10.1.3). Les deux hôtes tentent de s’enregistrer auprès du serveur NFS à l’aide du même ID client. Cela provoque une condition de concurrence dans laquelle un client invalide la session de l’autre, ce qui entraîne des erreurs de séquence et un délai de récupération d’une seconde qui dégrade les performances.
42855 2026-03-20 02:34:12.752931 10.10.1.3 10.10.1.50 NFS 294 V4 Call (Reply In 42856) CLOSE StateID: 0x97d3
42856 2026-03-20 02:34:12.753069 10.10.1.50 10.10.1.3 NFS 182 V4 Reply (Call In 42855) CLOSE
42857 2026-03-20 02:34:12.753542 10.10.1.50 10.10.1.3 NFS 562 V4 Reply (Call In 42837) OPEN StateID: 0x3dba
42858 2026-03-20 02:34:12.753583 10.10.1.3 10.10.1.50 TCP 66 976 → 2049 [ACK] Seq=14332461 Ack=1382561 Win=26688 Len=0 TSval=2749783070 TSecr=3786939377
42859 2026-03-20 02:34:12.753635 10.10.1.3 10.10.1.50 NFS 330 V4 Call (Reply In 42860) SETATTR FH: 0xac0cc5de
42860 2026-03-20 02:34:12.753718 10.10.1.50 10.10.1.3 NFS 114 V4 Reply (Call In 42859) SEQUENCE Status: NFS4ERR_BADSESSION
42861 2026-03-20 02:34:12.753980 10.10.1.3 10.10.1.50 NFS 186 V4 Call (Reply In 42862) DESTROY_SESSION
42862 2026-03-20 02:34:12.754047 10.10.1.50 10.10.1.3 NFS 114 V4 Reply (Call In 42861) DESTROY_SESSION Status: NFS4ERR_BADSESSION
42863 2026-03-20 02:34:12.754111 10.10.1.3 10.10.1.50 NFS 298 V4 Call (Reply In 42864) CREATE_SESSION
42864 2026-03-20 02:34:12.754171 10.10.1.50 10.10.1.3 NFS 114 V4 Reply (Call In 42863) CREATE_SESSION Status: NFS4ERR_SEQ_MISORDERED
42865 2026-03-20 02:34:12.755288 10.10.1.50 10.10.1.8 NFS 246 V4 Reply (Call In 42852) EXCHANGE_ID
42866 2026-03-20 02:34:12.755357 10.10.1.8 10.10.1.50 NFS 298 V4 Call (Reply In 42867) CREATE_SESSION
42867 2026-03-20 02:34:12.755544 10.10.1.50 10.10.1.8 NFS 194 V4 Reply (Call In 42866) CREATE_SESSION
42868 2026-03-20 02:34:12.755606 10.10.1.8 10.10.1.50 NFS 218 V4 Call (Reply In 42869) PUTROOTFH | GETATTR
42869 2026-03-20 02:34:12.755706 10.10.1.50 10.10.1.8 NFS 182 V4 Reply (Call In 42868) PUTROOTFH | GETATTR
42870 2026-03-20 02:34:12.755775 10.10.1.8 10.10.1.50 NFS 210 V4 Call (Reply In 42871) RECLAIM_COMPLETE
42871 2026-03-20 02:34:12.755855 10.10.1.50 10.10.1.8 NFS 158 V4 Reply (Call In 42870) RECLAIM_COMPLETE
42872 2026-03-20 02:34:12.755926 10.10.1.8 10.10.1.50 NFS 290 V4 Call (Reply In 42873) GETATTR FH: 0xc7011572
42873 2026-03-20 02:34:12.756013 10.10.1.50 10.10.1.8 NFS 362 V4 Reply (Call In 42872) GETATTR
42874 2026-03-20 02:34:12.757262 10.10.1.8 10.10.1.50 NFS 290 V4 Call (Reply In 42875) GETATTR FH: 0x3bc92b95
42875 2026-03-20 02:34:12.757347 10.10.1.50 10.10.1.8 NFS 362 V4 Reply (Call In 42874) GETATTR
42876 2026-03-20 02:34:12.795850 10.10.1.3 10.10.1.50 TCP 66 976 → 2049 [ACK] Seq=14333077 Ack=1382705 Win=26688 Len=0 TSval=2749783113 TSecr=3786939378
42877 2026-03-20 02:34:12.799280 10.10.1.8 10.10.1.50 TCP 66 988 → 2049 [ACK] Seq=78001 Ack=49629 Win=1188 Len=0 TSval=2328275863 TSecr=986324573
43224 2026-03-20 02:34:13.779818 10.10.1.3 10.10.1.50 NFS 354 V4 Call (Reply In 43232) EXCHANGE_ID
43232 2026-03-20 02:34:13.782406 10.10.1.50 10.10.1.3 NFS 246 V4 Reply (Call In 43224) EXCHANGE_ID
Cause
Si au moins deux clients (fréquents dans les machines virtuelles clonées ou les environnements conteneurisés) partagent le même nom d’hôte :
- L’hôte A établit une session.
- L’hôte B se connecte avec le même nom d’hôte ; le serveur suppose que l’hôte A a redémarré ou s’est reconnecté.
- Le serveur « expire » la session de l’hôte A pour permettre à l’hôte B de se connecter.
- L’hôte A tente ensuite de restaurer sa session, ce qui déclenche l’hôte B.
Il en résulte un cycle continu de réinitialisations de session et de relectures d’ID de séquence. Cela entraîne une dégradation importante des performances, car le client doit suspendre toutes les opérations d’E/S pendant une période de reprise obligatoire (généralement 1 seconde) avant de relancer une EXCHANGE_ID pour récupérer sa session.
Résolution
Le système Unity fonctionne comme prévu et respecte les normes RFC NFSv4.1/4.2. Le serveur met fin correctement aux sessions lorsqu’un ID client dupliqué (chaîne de propriétaire) est présenté afin d’éviter la corruption des données.
Pour résoudre la collision, chaque client doit disposer d’un identifiant global unique. Assurez-vous que le nom d’hôte est unique sur chaque client accédant au partage :
hostnamectl set-hostname <unique_hostname>
Redémarrez le service NFS ou redémarrez le client pour vous assurer que le nouvel ID est utilisé pour la prochaine EXCHANGE_ID appel au serveur Unity.