Dell Unity/VNX : Perte de connexion temporaire aléatoire et/ou dégradation des performances sur les hôtes ESXi à partir de la version 5.5 u2 et ultérieures (corrigible par l’utilisateur)

Summary: Les baies, les réseaux ou les structures fortement chargés peuvent ralentir les commandes ATS au point que la baie renvoie une condition de vérification de comparaison erronée sur une commande ATS à laquelle ESXi ne s’attend pas. En raison de cette erreur de comparaison ATS sur un logement de pulsation VMFS, l’hôte ESXi tente de reprendre le contrôle de l’appareil. Pour ce faire, l’hôte émet une réinitialisation du périphérique SCSI sur la LUN contenant le VMFS. Toutes les E/S actives de cette LUN sont abandonnées et le périphérique SCSI est réinitialisé. Une perte temporaire de connectivité s’affiche dans les logs VMkernel. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

SCÉNARIO:

  • Mise à niveau de l’hôte vers ESXi 5.5 mise à jour 2 ou ESXi 6.0
  • Un ou plusieurs hôtes ESXi perdent la connexion au datastore VMFS pendant une courte période. Toutes les machines virtuelles du datastore peuvent se bloquer ou présenter des erreurs d’E/S.
  • En raison d’une erreur de comparaison ATS (Atomic Test and Set) sur un logement de pulsation VMFS, l’hôte ESXi tente de reprendre le contrôle de l’appareil en émettant une réinitialisation de l’appareil SCSI sur la LUN contenant le VMFS.
  • Toutes les E/S actives sur cette LUN seront abandonnées et le périphérique SCSI sera réinitialisé.  
  • Une perte temporaire de connectivité s’affiche dans les logs VMkernel.
 

Une erreur de comparaison ATS peut se produire à la fois avec NMP et PowerPath.
Des messages d’erreur indiquant une erreur de comparaison ATS similaire à celle-ci s’affichent dans /var/log/vmkernel.log :

2015-11-20T22:12:47.194Z cpu13:33467)ScsiDeviceIO: 2645: Cmd(0x439dd0d7c400) 0x89, CmdSN 0x2f3dd6 from world 3937473 to dev "naa.50002ac0049412fa" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0xe 0x1d 0x0.
 


Autres problèmes susceptibles de se produire :

  • Hôtes se déconnectant de vSphere vCenter
  • Machines virtuelles bloquées sur les opérations d’E/S

Cause

Ce problème a été observé sur les baies, les réseaux ou les structures qui sont suffisamment surchargés pour que les hôtes annulent les demandes d’E/S.

Plusieurs fournisseurs de baies (Dell inclus) rencontrent des problèmes avec la fonctionnalité de pulsation ATS qui a été introduite dans ESXi 5.5u2.

Remarque : Conformément à l’article 326437de la base de connaissances Broadcom (VMware) (lien externe), ce problème affecte les versions d’ESXi VMware ESXi 5.5.x et VMware ESXi 6.0.x, qui ne fournissent pas toutes les versions spécifiques. Par conséquent, cet article de la base de connaissances suppose que tous les hôtes ESXi avec la version 5.5u2 et les versions 6.0 et ultérieures sont concernés.
 

Les versions VMware ESXi 5.5.0 Update 2 (build 2068190) et ultérieures utilisent l’ATS (Atomic Test and Set) pour le verrouillage des pulsations VMFS. Avant la version 5.5.0 u2, les réservations non persistantes SCSI-2 étaient utilisées à cette fin.

Un hôte indique sa disponibilité en effectuant régulièrement des E/S à sa pulsation sur un volume donné. Par conséquent, si aucune activité n’est observée sur le logement de pulsation de l’hôte pendant un certain temps, nous pouvons conclure que l’hôte a perdu la connectivité au volume.

Les E/S de pulsation ATS ont une valeur de délai d’expiration très faible qui peut entraîner des déconnexions de l’hôte et des pannes d’applications, ce qui se traduit par une perte de connexion aux disques et/ou une dégradation des performances sur les hôtes.

L’hôte enregistre ensuite l’erreur de comparaison sur le logement de pulsation et abandonne toutes les E/S actives sur la LUN lorsqu’il émet la réinitialisation.  Toutes les E/S en attente sur cette LUN échouent avec la réinitialisation SCSI 8 (H :0x8 SCSI).

Resolution

Si cette condition est observée, la solution de contournement temporaire recommandée consiste à désactiver le mécanisme de pulsation de l’ATS VAAI. Pour plus d’informations, reportez-vous à l’article de la base de connaissances Broadcom (VMware) 326437(lien externe).   La désactivation du mécanisme de pulsation ATS rétablit l’hôte en mode hérité. Une fois la charge traitée, réactivez le mécanisme de pulsation ATS.

Contactez VMware pour confirmer le problème ou fournissez un emcgrab ESXi avec vmsupport pour confirmation. La désactivation de la fonctionnalité de pulsation VAAI ATS sur le serveur ESX est UNIQUEMENT recommandée pour les clients concernés jusqu’à ce que les problèmes de charge puissent être résolus.

Additional Information

Les logs Unity peuvent être utilisés pour identifier ce type particulier d’abandons (Sense Key = 0e, ASC = 1d, ASCQ = 00)

L’emplacement du log dans les logs extraits est le suivant : 

spX\EMC\C4Core\log\c4_safe_ktrace.log (le même endroit peut être utilisé en direct sur la baie /EMC/C4Core/log/c4_safe_ktrace.log)


Pour vérifier les journaux, extrayez tous les journaux c4_safe_ktrace.log* à l’emplacement ci-dessus, puis recherchez « SK = 0x0e, ASC/Q = 0x1d00 ».

Exemple avec un système Linux ou similaire :

grep -i "SK = 0x0e, ASC/Q = 0x1d00" spa/EMC/C4Core/log/c4_safe_ktrace.* | wc -l
15744 <<<< count of aborts on SPA in this example.

Si les journaux ktrace ne sont pas extracés, utilisez simplement zgrep :

zgrep -i "SK = 0x0e, ASC/Q = 0x1d00" spa/EMC/C4Core/log/c4_safe_ktrace.* | wc -l
15744 <<<< count of aborts on SPA in this example.

 

Affected Products

Dell EMC Unity Family

Products

Dell Unity 300, Dell EMC Unity 300F, Dell EMC Unity 350F, Dell EMC Unity 400, Dell EMC Unity 400F, Dell EMC Unity 450F, Dell EMC Unity 500, Dell EMC Unity 500F, Dell EMC Unity 550F, Dell EMC Unity 600, Dell EMC Unity 600F, Dell EMC Unity 650F , Dell EMC Unity Family |Dell EMC Unity All Flash, Dell EMC Unity Family, Dell EMC Unity Hybrid, VNX5100, VNX5200, VNX5300, VNX5400, VNX5500, VNX5600, VNX5700, VNX5800, VNX7500, VNX7600, VNX8000, VNX/VNXe ...
Article Properties
Article Number: 000035613
Article Type: Solution
Last Modified: 27 Feb 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.