Dell Unity/VNX: Willekeurig tijdelijk verlies van verbinding en/of prestatievermindering op ESXi-hosts vanaf versie 5.5 u2 en hoger (op te lossen door gebruiker)

Summary: Zwaar belaste arrays, netwerken of fabrics kunnen ATS-opdrachten zodanig vertragen dat de array een controlevoorwaarde voor een verkeerde vergelijking retourneert op een ATS-opdracht die ESXi niet verwacht. Vanwege deze ATS-misvergelijking op een VMFS HeartBeat-slot probeert de ESXi-host de controle over het apparaat terug te krijgen. Om dit te doen, geeft de host een reset van het SCSI-apparaat uit op de LUN die de VMFS vasthoudt. Alle actieve I/O op deze LUN wordt afgebroken en het SCSI-apparaat wordt gereset. Een tijdelijk verlies van connectiviteit wordt weergegeven in de VMkernel-logboeken. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

SCENARIO:

  • Hostupgrade naar ESXi 5.5 update 2 of ESXi 6.0
  • Een of meer ESXi-hosts verliezen gedurende korte tijd de verbinding met de VMFS-datastore. Alle VM's in de datastore kunnen crashen of I/O-fouten bevatten.
  • Als gevolg van een ATS-fout (Atomic Test and Set) op een VMFS HeartBeat-slot, probeert de ESXi-host de controle over het apparaat terug te krijgen door een SCSI-apparaatreset uit te voeren op de LUN die de VMFS vasthoudt.
  • Alle actieve I/O op deze LUN wordt afgebroken en het SCSI-apparaat wordt gereset.  
  • Een tijdelijk verlies van connectiviteit wordt weergegeven in de VMkernel-logboeken.
 

Verkeerde vergelijking van ATS kan zich voordoen met zowel NMP als PowerPath.
Foutmeldingen die duiden op een vergelijkbare ATS-fout worden weergegeven in /var/log/vmkernel.log:

2015-11-20T22:12:47.194Z cpu13:33467)ScsiDeviceIO: 2645: Cmd(0x439dd0d7c400) 0x89, CmdSN 0x2f3dd6 from world 3937473 to dev "naa.50002ac0049412fa" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0xe 0x1d 0x0.
 


Andere problemen die kunnen optreden:

  • Hosts verbreken de verbinding met vSphere vCenter
  • Virtuele machines blijven hangen bij I/O-bewerkingen

Cause

Dit probleem is waargenomen op arrays, netwerken of fabrics die zo overbelast zijn dat hosts I/O-aanvragen annuleren.

Verschillende arrayleveranciers (waaronder Dell) hebben problemen met de ATS heartbeat-functie die is geïntroduceerd in ESXi 5.5u2.

OPMERKING: Volgens Broadcom (VMware) KB 326437 (externe koppeling) is dit probleem van invloed op ESXi-versiesVMware ESXi 5.5.x en VMware ESXi 6.0.x, die niet alle specifieke versies bieden, daarom gaat deze KB ervan uit dat alle ESXi-hosts met versie 5.5u2 en alle ESXi 6.0-versies worden beïnvloed.
 

VMware ESXi versies 5.5.0 Update 2 (build 2068190) en ESXi 6.0 en later maakt gebruik van Atomic Test and Set (ATS) voor VMFS heartbeat-vergrendeling. Voorafgaand aan versie 5.5.0 u2 werden voor dit doel niet-permanente SCSI-2-reserveringen gebruikt.

Een host geeft zijn levendigheid aan door periodiek I/O uit te voeren op zijn hartslag op een bepaald volume. Als er dus gedurende een bepaalde tijd geen activiteit wordt waargenomen op het hartslagslot van de host, kunnen we concluderen dat de host de verbinding met het volume heeft verloren.

ATS heartbeat I/O heeft een zeer lage time-outwaarde die kan leiden tot verbroken verbindingen met hosts en applicatie-uitval, wat zich vertaalt in verbindingsverlies naar schijven en/of prestatievermindering op de hosts.

De host registreert vervolgens de misvergelijking op het heartbeat-slot en breekt alle actieve IO op de LUN af terwijl deze de reset uitvoert.  Alle in behandeling zijnde IO op deze LUN zal mislukken met host sense 8 (H:0x8 SCSI-reset).

Resolution

Als deze toestand wordt waargenomen, is de aanbevolen tijdelijke oplossing het uitschakelen van het VAAI ATS-hartslagmechanisme. Zie Broadcom (VMware) KB 326437 (externe link) voor meer informatie. Als u het ATS-heartbeatmechanisme uitschakelt, keert de host terug naar de legacy-modus. Zodra de belasting is aangepakt, schakelt u het ATS-hartslagmechanisme weer in.

Neem contact op met VMware voor bevestiging van het probleem of geef een ESXi emcgrab met vmsupport op ter bevestiging. Het uitschakelen van de VAAI ATS Heartbeat-functionaliteit op de ESX-server wordt ALLEEN aanbevolen voor getroffen klanten totdat de laadproblemen kunnen worden opgelost.

Additional Information

De Unity-logboeken kunnen worden gebruikt om dit specifieke type afbrekingen te identificeren (sense-sleutel = 0e, ASC = 1d, ASCQ = 00)

De logboeklocatie in de uitgepakte logboeken is: 

spX\EMC\C4Core\log\c4_safe_ktrace.log (dezelfde plaats kan live worden gebruikt op de array /EMC/C4Core/log/c4_safe_ktrace.log)


Als u de logboeken wilt controleren, pakt u alle c4_safe_ktrace.log*-logboeken op de bovenstaande locatie uit en zoekt u vervolgens naar 'SK = 0x0e, ASC/Q = 0x1d00'.

Voorbeeld met een linux systeem of vergelijkbaar:

grep -i "SK = 0x0e, ASC/Q = 0x1d00" spa/EMC/C4Core/log/c4_safe_ktrace.* | wc -l
15744 <<<< count of aborts on SPA in this example.

Als de ktrace-logbestanden niet worden uitgeleverd, gebruikt u gewoon zgrep:

zgrep -i "SK = 0x0e, ASC/Q = 0x1d00" spa/EMC/C4Core/log/c4_safe_ktrace.* | wc -l
15744 <<<< count of aborts on SPA in this example.

 

Affected Products

Dell EMC Unity Family

Products

Dell Unity 300, Dell EMC Unity 300F, Dell EMC Unity 350F, Dell EMC Unity 400, Dell EMC Unity 400F, Dell EMC Unity 450F, Dell EMC Unity 500, Dell EMC Unity 500F, Dell EMC Unity 550F, Dell EMC Unity 600, Dell EMC Unity 600F, Dell EMC Unity 650F , Dell EMC Unity Family |Dell EMC Unity All Flash, Dell EMC Unity Family, Dell EMC Unity Hybrid, VNX5100, VNX5200, VNX5300, VNX5400, VNX5500, VNX5600, VNX5700, VNX5800, VNX7500, VNX7600, VNX8000, VNX/VNXe ...
Article Properties
Article Number: 000035613
Article Type: Solution
Last Modified: 27 Feb 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.