Dell Unity/VNX: Satunnainen tilapäinen yhteyden katkeaminen ja/tai suorituskyvyn heikkeneminen ESXi-isännissä versiosta 5.5 u2 alkaen (käyttäjän korjattavissa)

Summary: Raskaasti ladatut taulukot, verkot tai fabric-verkot voivat hidastaa ATS-komentoja siinä määrin, että matriisi palauttaa ATS-komennossa tarkistusvirheen, jota ESXi ei odota. Tämän VMFS HeartBeat -paikan ATS-vertailuvirheen vuoksi ESXi-isäntä yrittää saada laitteen takaisin hallintaansa. Isäntä nollaa SCSI-laitteen VMFS-tiedostoa pitelevään LUN-levyyn. Kaikki tämän LUN:n aktiiviset I/O:t keskeytetään ja SCSI-laite nollataan. Tilapäinen yhteyskatkos näkyy VMkernel-lokeissa. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

SKENAARIO:

  • Isännän päivitys ESXi 5.5 Update 2:een tai ESXi 6.0:aan
  • Vähintään yksi ESXi-isäntä menettää hetkeksi yhteyden VMFS-tietosäilöön. Kaikki tietosäilön virtuaalikoneet voivat kaatua tai niissä voi olla I/O-virheitä.
  • VMFS HeartBeat -paikan Atomic Test and Set (ATS) -virhevertailun vuoksi ESXi-isäntä yrittää saada laitteen hallintaansa nollaamalla SCSI-laitteen VMFS-tiedostoa pitelevässä LUN-laitteessa.
  • Kaikki tämän LUN:n aktiiviset I/O:t keskeytetään ja SCSI-laite nollataan.  
  • Tilapäinen yhteyskatkos näkyy VMkernel-lokeissa.
 

ATS Vertaa väärin sekä NMP:tä että PowerPathia käytettäessä.
Virhesanomat, jotka viittaavat tämänkaltaiseen ATS-virhevertailuun, näkyvät kansiossa /var/log/vmkernel.log:

2015-11-20T22:12:47.194Z cpu13:33467)ScsiDeviceIO: 2645: Cmd(0x439dd0d7c400) 0x89, CmdSN 0x2f3dd6 from world 3937473 to dev "naa.50002ac0049412fa" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0xe 0x1d 0x0.
 


Muita mahdollisia ongelmia:

  • Isännät, jotka katkaisevat yhteyden vSphere vCenteriin
  • Virtuaalikoneet roikkuvat I/O-toiminnoissa

Cause

Tämä ongelma on havaittu levyjärjestelmissä, verkoissa tai fabric-verkoissa, jotka ovat niin ylikuormitettuja, että isännät peruuttavat I/O-pyyntöjä.

Useilla levyjärjestelmien valmistajilla (Dell mukaan lukien) on ongelmia ESXi 5.5u2:ssa lisätyn ATS-sykeominaisuuden kanssa.

HUOMAUTUS: Broadcomin (VMware) KB-326437 (ulkoinen linkki) mukaan tämä ongelma vaikuttaa ESXi-versioihin VMware ESXi 5.5.x ja VMware ESXi 6.0.x. Se ei sisällä kaikkia tiettyjä versioita. Tässä tietämyskannan artikkelissa oletetaan, että kaikki ESXi-isännät, joiden versio on 5.5u2 tai uudempi, ja että ongelma koskee kaikkia ESXi 6.0 -versioita.
 

VMware ESXi -versio 5.5.0 Update 2 (koontiversio 2068190) ja ESXi 6.0 -versiosta alkaen käyttää Atomic Test and Set (ATS) -toimintoa VMFS-sykkeen lukitsemiseen. Ennen versiota 5.5.0 u2 tähän tarkoitukseen käytettiin ei-pysyviä SCSI-2-varauksia.

Isäntä osoittaa eloisuutensa suorittamalla säännöllisesti I/O:n sykkeeseensä tietyllä äänenvoimakkuudella. Jos isännän sykepaikassa ei näy toimintaa vähään aikaan, voidaan päätellä, että isännän yhteys taltioon on katkennut.

ATS-syke-I/O:lla on erittäin alhainen aikakatkaisuarvo, joka voi johtaa isännän yhteyden katkeamiseen ja sovellusten käyttökatkoksiin, mikä tarkoittaa yhteyksien katkeamista levyille ja/tai isäntien suorituskyvyn heikkenemistä.

Isäntä rekisteröi vertailuvirheen sykepaikassa ja keskeyttää kaikki aktiiviset IO:t LUN:ssa nollauksen yhteydessä.  Kaikki tämän LUN:n odottavat IO:t epäonnistuvat, kun host sense 8 (H:0x8 SCSI nollataan).

Resolution

Jos tämä ehto täyttyy, suositeltu tilapäinen kiertotapa on poistaa VAAI ATS -sykemekanismi käytöstä. Lisätietoja on artikkelissa Broadcom (VMware) KB 326437(ulkoinen linkki).   ATS-sykemekanismin poistaminen käytöstä palauttaa isännän takaisin vanhaan tilaan. Kun kuorma on käsitelty, ota ATS-sykemekanismi uudelleen käyttöön.

Ota yhteyttä VMwareen ongelman vahvistamiseksi tai toimita ESXi emcgrab ja vmsupport vahvistusta varten. ESX-palvelimen VAAI ATS Heartbeat -toiminnon poistamista käytöstä suositellaan VAIN asiakkaille, joita ongelma koskee, kunnes kuormitusongelmat on ratkaistu.

Additional Information

Unity-lokeista voidaan tunnistaa tämäntyyppiset keskeytykset (seuranta-avain = 0e, ASC = 1d, ASCQ = 00)

Purettujen lokien lokisijainti on seuraava: 

spX\EMC\C4Core\log\c4_safe_ktrace.log (samaa sijaintia voi käyttää reaaliaikaisesti levyjärjestelmässä /EMC/C4Core/log/c4_safe_ktrace.log)


Tarkista lokit purkamalla kaikki edellä olevasta sijainnista c4_safe_ktrace.log* ja etsimällä SK = 0x0e, ASC/Q = 0x1d00.

Esimerkki Linux-järjestelmästä tai vastaavasta:

grep -i "SK = 0x0e, ASC/Q = 0x1d00" spa/EMC/C4Core/log/c4_safe_ktrace.* | wc -l
15744 <<<< count of aborts on SPA in this example.

Jos ktrace-lokeja ei lähetetä, käytä zgrepiä:

zgrep -i "SK = 0x0e, ASC/Q = 0x1d00" spa/EMC/C4Core/log/c4_safe_ktrace.* | wc -l
15744 <<<< count of aborts on SPA in this example.

 

Affected Products

Dell EMC Unity Family

Products

Dell Unity 300, Dell EMC Unity 300F, Dell EMC Unity 350F, Dell EMC Unity 400, Dell EMC Unity 400F, Dell EMC Unity 450F, Dell EMC Unity 500, Dell EMC Unity 500F, Dell EMC Unity 550F, Dell EMC Unity 600, Dell EMC Unity 600F, Dell EMC Unity 650F , Dell EMC Unity Family |Dell EMC Unity All Flash, Dell EMC Unity Family, Dell EMC Unity Hybrid, VNX5100, VNX5200, VNX5300, VNX5400, VNX5500, VNX5600, VNX5700, VNX5800, VNX7500, VNX7600, VNX8000, VNX/VNXe ...
Article Properties
Article Number: 000035613
Article Type: Solution
Last Modified: 27 Feb 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.