Dell Unity/VNX: Perdita temporanea casuale della connessione e/o riduzione delle prestazioni sugli host ESXi dalla versione 5.5 u2 e successive (correggibile dall'utente)

Summary: Array, reti o fabric con carichi elevati possono rallentare i comandi ATS in modo tale che l'array restituisca una condizione di controllo di confronto errato su un comando ATS non previsto da ESXi. A causa di questa mancata corrispondenza ATS su uno slot Heartbeat VMFS, l'host ESXi tenta di riprendere il controllo del dispositivo. A tale scopo, l'host emette un ripristino del dispositivo SCSI sulla LUN che contiene il VMFS. Tutte le operazioni di I/O attive su questa LUN vengono interrotte e il dispositivo SCSI viene reimpostato. Una perdita temporanea di connettività viene visualizzata nei log VMkernel. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

SCENARIO:

  • Aggiornamento dell host a ESXi 5.5 aggiornamento 2 o ESXi 6.0
  • Uno o più host ESXi perdono la connessione al datastore VMFS per un breve periodo di tempo. Le VM sul datastore potrebbero arrestarsi in modo anomalo o presentare errori di I/O.
  • A causa di un errato confronto ATS (Atomic Test and Set) su uno slot Heartbeat VMFS, l'host ESXi tenta di riprendere il controllo del dispositivo emettendo un ripristino del dispositivo SCSI sulla LUN che contiene il VMFS.
  • Tutte le operazioni di I/O attive su questa LUN verranno interrotte e il dispositivo SCSI verrà reimpostato.  
  • Una perdita temporanea di connettività viene visualizzata nei log VMkernel.
 

Il confronto errato di ATS può verificarsi sia con NMP che con PowerPath.
In /var/log/vmkernel.log vengono visualizzati messaggi di errore che indicano un errore di confronto ATS simile a questo:

2015-11-20T22:12:47.194Z cpu13:33467)ScsiDeviceIO: 2645: Cmd(0x439dd0d7c400) 0x89, CmdSN 0x2f3dd6 from world 3937473 to dev "naa.50002ac0049412fa" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0xe 0x1d 0x0.
 


Altri problemi che possono verificarsi:

  • Host che si disconnettono da vSphere vCenter
  • Macchine virtuali bloccate sulle operazioni di I/O

Cause

Questo problema è stato riscontrato su array, reti o fabric talmente sovraccarichi da richiedere l'annullamento delle richieste di I/O da parte degli host.

Diversi fornitori di array (inclusa Dell) stanno riscontrando problemi con la funzione heartbeat ATS, introdotta in ESXi 5.5u2.

NOTA: Come indicato nell'326437 della KB di Broadcom (VMware) (link esterno), questo problema interessa le versioni ESXi VMware ESXi 5.5.x e VMware ESXi 6.0.x, che non forniscono tutte le versioni specifiche, pertanto questo articolo della KB presuppone che siano interessati tutti gli host ESXi con versione 5.5u2 e tutte le versioni ESXi 6.0.
 

VMware ESXi versione 5.5.0 aggiornamento 2 (build 2068190) e versioni successive ed ESXi 6.0 e versioni successive utilizzano Atomic Test and Set (ATS) per il blocco heartbeat VMFS. Prima della versione 5.5.0 u2, a tale scopo venivano utilizzate prenotazioni non permanenti SCSI-2.

Un host indica la propria attività eseguendo periodicamente I/O al suo heartbeat su un determinato volume. Pertanto, se non viene rilevata alcuna attività nello slot heartbeat dell host per un certo periodo di tempo, si può concludere che l'host ha perso la connettività al volume.

L'I/O heartbeat ATS ha un valore di timeout molto basso che può causare disconnessioni dell host e interruzioni dell'attività, con conseguente perdita di connessione ai dischi e/o riduzione delle prestazioni sugli host.

L'host registra quindi la mancata corrispondenza nello slot heartbeat e interrompe tutti gli I/O attivi sulla LUN mentre emette il ripristino.  Tutti gli I/O in sospeso su questa LUN avranno esito negativo con rilevamento host 8 (H:0x8 reimpostazione SCSI).

Resolution

Se viene osservata questa condizione, la soluzione temporanea consigliata consiste nel disabilitare il meccanismo heartbeat VAAI ATS. Per ulteriori informazioni, consultare l'articolo della KB 326437(link esterno) di Broadcom (VMware).  La disabilitazione del meccanismo heartbeat ATS ripristinerà l'host alla modalità legacy. Una volta risolto il problema, riabilitare il meccanismo heartbeat ATS.

Contattare VMware per la conferma del problema o fornire un EMCGRAB ESXi con vmsupport per la conferma. La disabilitazione della funzionalità Heartbeat VAAI ATS sul server ESX è consigliata SOLO per i clienti interessati fino a quando non sarà possibile risolvere i problemi di carico.

Additional Information

I registri Unity possono essere utilizzati per identificare questo particolare tipo di interruzioni (Sense Key = 0e, ASC = 1d, ASCQ = 00)

La posizione del registro nei registri estratti è: 

spX\EMC\C4Core\log\c4_safe_ktrace.log (la stessa posizione può essere utilizzata in tempo reale sull'array /EMC/C4Core/log/c4_safe_ktrace.log)


Per verificare i registri, estrarre tutti i registri c4_safe_ktrace.log* nella posizione precedente, quindi cercare "SK = 0x0e, ASC/Q = 0x1d00".

Esempio con un sistema Linux o simile:

grep -i "SK = 0x0e, ASC/Q = 0x1d00" spa/EMC/C4Core/log/c4_safe_ktrace.* | wc -l
15744 <<<< count of aborts on SPA in this example.

Se i log ktrace non vengono estrusi, è sufficiente usare zgrep:

zgrep -i "SK = 0x0e, ASC/Q = 0x1d00" spa/EMC/C4Core/log/c4_safe_ktrace.* | wc -l
15744 <<<< count of aborts on SPA in this example.

 

Affected Products

Dell EMC Unity Family

Products

Dell Unity 300, Dell EMC Unity 300F, Dell EMC Unity 350F, Dell EMC Unity 400, Dell EMC Unity 400F, Dell EMC Unity 450F, Dell EMC Unity 500, Dell EMC Unity 500F, Dell EMC Unity 550F, Dell EMC Unity 600, Dell EMC Unity 600F, Dell EMC Unity 650F , Dell EMC Unity Family |Dell EMC Unity All Flash, Dell EMC Unity Family, Dell EMC Unity Hybrid, VNX5100, VNX5200, VNX5300, VNX5400, VNX5500, VNX5600, VNX5700, VNX5800, VNX7500, VNX7600, VNX8000, VNX/VNXe ...
Article Properties
Article Number: 000035613
Article Type: Solution
Last Modified: 27 Feb 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.