Dell Unity/VNX: Satunnainen tilapäinen yhteyden katkeaminen ja/tai suorituskyvyn heikkeneminen ESXi-isännissä versiosta 5.5 u2 alkaen (käyttäjän korjattavissa)
Summary: Raskaasti ladatut taulukot, verkot tai fabric-verkot voivat hidastaa ATS-komentoja siinä määrin, että matriisi palauttaa ATS-komennossa tarkistusvirheen, jota ESXi ei odota. Tämän VMFS HeartBeat -paikan ATS-vertailuvirheen vuoksi ESXi-isäntä yrittää saada laitteen takaisin hallintaansa. Isäntä nollaa SCSI-laitteen VMFS-tiedostoa pitelevään LUN-levyyn. Kaikki tämän LUN:n aktiiviset I/O:t keskeytetään ja SCSI-laite nollataan. Tilapäinen yhteyskatkos näkyy VMkernel-lokeissa. ...
Symptoms
SKENAARIO:
- Isännän päivitys ESXi 5.5 Update 2:een tai ESXi 6.0:aan
- Vähintään yksi ESXi-isäntä menettää hetkeksi yhteyden VMFS-tietosäilöön. Kaikki tietosäilön virtuaalikoneet voivat kaatua tai niissä voi olla I/O-virheitä.
- VMFS HeartBeat -paikan Atomic Test and Set (ATS) -virhevertailun vuoksi ESXi-isäntä yrittää saada laitteen hallintaansa nollaamalla SCSI-laitteen VMFS-tiedostoa pitelevässä LUN-laitteessa.
- Kaikki tämän LUN:n aktiiviset I/O:t keskeytetään ja SCSI-laite nollataan.
- Tilapäinen yhteyskatkos näkyy VMkernel-lokeissa.
ATS Vertaa väärin sekä NMP:tä että PowerPathia käytettäessä.
Virhesanomat, jotka viittaavat tämänkaltaiseen ATS-virhevertailuun, näkyvät kansiossa /var/log/vmkernel.log:
2015-11-20T22:12:47.194Z cpu13:33467)ScsiDeviceIO: 2645: Cmd(0x439dd0d7c400) 0x89, CmdSN 0x2f3dd6 from world 3937473 to dev "naa.50002ac0049412fa" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0xe 0x1d 0x0.
Muita mahdollisia ongelmia:
- Isännät, jotka katkaisevat yhteyden vSphere vCenteriin
- Virtuaalikoneet roikkuvat I/O-toiminnoissa
Cause
Tämä ongelma on havaittu levyjärjestelmissä, verkoissa tai fabric-verkoissa, jotka ovat niin ylikuormitettuja, että isännät peruuttavat I/O-pyyntöjä.
Useilla levyjärjestelmien valmistajilla (Dell mukaan lukien) on ongelmia ESXi 5.5u2:ssa lisätyn ATS-sykeominaisuuden kanssa.
HUOMAUTUS: Broadcomin (VMware) KB-326437 (ulkoinen linkki) mukaan tämä ongelma vaikuttaa ESXi-versioihin VMware ESXi 5.5.x ja VMware ESXi 6.0.x. Se ei sisällä kaikkia tiettyjä versioita. Tässä tietämyskannan artikkelissa oletetaan, että kaikki ESXi-isännät, joiden versio on 5.5u2 tai uudempi, ja että ongelma koskee kaikkia ESXi 6.0 -versioita.
Isäntä osoittaa eloisuutensa suorittamalla säännöllisesti I/O:n sykkeeseensä tietyllä äänenvoimakkuudella. Jos isännän sykepaikassa ei näy toimintaa vähään aikaan, voidaan päätellä, että isännän yhteys taltioon on katkennut.
ATS-syke-I/O:lla on erittäin alhainen aikakatkaisuarvo, joka voi johtaa isännän yhteyden katkeamiseen ja sovellusten käyttökatkoksiin, mikä tarkoittaa yhteyksien katkeamista levyille ja/tai isäntien suorituskyvyn heikkenemistä.
Isäntä rekisteröi vertailuvirheen sykepaikassa ja keskeyttää kaikki aktiiviset IO:t LUN:ssa nollauksen yhteydessä. Kaikki tämän LUN:n odottavat IO:t epäonnistuvat, kun host sense 8 (H:0x8 SCSI nollataan).
Resolution
Jos tämä ehto täyttyy, suositeltu tilapäinen kiertotapa on poistaa VAAI ATS -sykemekanismi käytöstä. Lisätietoja on artikkelissa Broadcom (VMware) KB 326437(ulkoinen linkki). ATS-sykemekanismin poistaminen käytöstä palauttaa isännän takaisin vanhaan tilaan. Kun kuorma on käsitelty, ota ATS-sykemekanismi uudelleen käyttöön.
Ota yhteyttä VMwareen ongelman vahvistamiseksi tai toimita ESXi emcgrab ja vmsupport vahvistusta varten. ESX-palvelimen VAAI ATS Heartbeat -toiminnon poistamista käytöstä suositellaan VAIN asiakkaille, joita ongelma koskee, kunnes kuormitusongelmat on ratkaistu.
Additional Information
Unity-lokeista voidaan tunnistaa tämäntyyppiset keskeytykset (seuranta-avain = 0e, ASC = 1d, ASCQ = 00)
Purettujen lokien lokisijainti on seuraava:
Tarkista lokit purkamalla kaikki edellä olevasta sijainnista c4_safe_ktrace.log* ja etsimällä SK = 0x0e, ASC/Q = 0x1d00.
Esimerkki Linux-järjestelmästä tai vastaavasta:
grep -i "SK = 0x0e, ASC/Q = 0x1d00" spa/EMC/C4Core/log/c4_safe_ktrace.* | wc -l 15744 <<<< count of aborts on SPA in this example.
Jos ktrace-lokeja ei lähetetä, käytä zgrepiä:
zgrep -i "SK = 0x0e, ASC/Q = 0x1d00" spa/EMC/C4Core/log/c4_safe_ktrace.* | wc -l 15744 <<<< count of aborts on SPA in this example.