Article Number: 000056125

Dell EMC VxRail: vSAN Health ilmoittaa ajoittain "Hosts with communication issues" -viesteistä

Summary: VxRail VSAN -klusterin ESXi-isännissä voi ilmetä tilapäisiä yhteysongelmia, ja seurauksena voi olla VSAN-kuntoilmoitus Hosts with communication issues -virheilmoituksista.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Symptoms

Isännät voivat ajoittain ilmoittaa yhteysongelmista. Isännät pysyvät yhteydessä, mutta vSAN-kuntotarkastuksessa saattaa ajoittain näkyä satunnaisia isäntiä, joissa on yhteysongelmia. Jos VSAN-kuntotestit tehdään uudelleen, ongelma poistuu, mutta toistuu muutaman minuutin kuluttua.

Versiot, joita ongelma koskee:
Tähän mennessä ongelma koskee VxRail-versioita 4.5.x ja 4.7.x.

Lokin analyysin yhteenveto:

vSAN-kuntohälytys näkyy vCenterissä:

2019-08-14T12:56:01.422Z INFO vsan-mgmt[EventMonitor] [VsanEventUtil::_generateVcEvent opID=noOpId] Generate VC event for managed object NC1V01 with testName=Hosts with connectivity issues, testId=com.vmware.vsan.health.test.hostconnectivity, preStatus=green, curStatus=red

vmware-vsan-health-summary-result.log-lokissa näkyy vSAN-kuntoisännän yhteysongelmia:

2019-08-14T12:56:01.355Z INFO vsan-mgmt[EventMonitor] [VsanHealthSummaryLogUtil::PrintHealthResult opID=noOpId] Cluster NB1X01  Overall Health : red
   Group network health : red
      Test hostdisconnected health : green
      Test hostconnectivity health : red
         HostsWithCommunicationIssues: Host
                                       (Host-234),
      Test clusterpartition health : green
      Test vsanvmknic health : green
      Test smallping health : green
      Test largeping health : green
      Test vmotionpingsmall health : green
      Test vmotionpinglarge health : green
      Test hostlatencycheck health : green
         NetworkLatencyCheckResults: FromHost  ToHost  NetworkLatency(Ms)  NetworkLatencyCheckResult
                                     (Host-227, Host-236, 0.18, Green), (Host-227, Host-234, 0.23, Green), (Host-227, Host-238, 0.16, Green), (Host-227, Host-232, 0.12, Green), (Host-234, Host-232, 0.27, Green),
                                     (Host-234, Host-238, 0.31, Green), (Host-234, Host-236, 0.29, Green), (Host-234, Host-227, 0.26, Green), (Host-236, Host-227, 0.1, Green), (Host-236, Host-234, 0.12, Green),
                                     (Host-236, Host-238, 0.1, Green), (Host-236, Host-232, 0.1, Green), (Host-232, Host-236, 0.1, Green), (Host-232, Host-238, 0.1, Green), (Host-232, Host-234, 0.12, Green),
                                     (Host-232, Host-227, 0.11, Green), (Host-238, Host-232, 0.15, Green), (Host-238, Host-236, 0.11, Green), (Host-238, Host-234, 0.23, Green), (Host-238, Host-227, 0.12, Green),
   Group cloudhealth health : yellow
      Test vsancloudhealthceipexception health : yellow
   Group vum health : yellow
      Test vumconfig health : yellow

vmware-vsan-health-service.log:

2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::InvokeMethod opID=noOpId] Timed out for host nc1v02ps12.corp.ukrail.net in invoke-method:vsanSystem:Query
HostStatus
2019-08-14T12:55:54.403Z INFO vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::logProfile opID=noOpId]   invoke-method:vsanSystem:QueryHostStatus: 8.44s:nc1v02ps12.corp.ukrail.net
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanClusterHealthSystemImpl::PerHostQueryNetworkHealth opID=noOpId] Exception in host nc1v02ps12.corp.ukrail.net:
Traceback (most recent call last):
  File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 1004, in PerHostQueryNetworkHealth
    SetHostClusterUuid(host, hostInfos[host], fetchHostStatus=True)
  File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 784, in SetHostClusterUuid
    status = vs.QueryHostStatus()
..
..
..
    return self._sslobj.read(len, buffer)
  File "C:\Program Files\VMware\vCenter Server\python\lib\ssl.py", line 583, in read
    v = self._sslobj.read(len, buffer)
socket.timeout: The read operation timed out

Cause

PTAgent on oletuksena määritetty tekemään SCSI-laite ja väylän tarkistus uudelleen 3 minuutin välein. Tämän tyyppinen kysely on etsiä uusia levyjä tai muita palvelimeen liitettyjä laitteita. Sitä on laajennettu niin, että se tarkistaa myös muut lohkolaitteet, kuten iSCSI:n. Tarkistamme paikallisesta isännän väyläsilta, onko uusia levyjä lisätty hiljattain.
ESXi-tallennuspino tekee myös oman laitteensa ja tarkistaa väylän oletusarvoisesti uudelleen 5 minuutin välein. Laitteiden ja väylän tarkistus on tallennuksen näkökulmasta kallista. Se voi estää tiettyjä SCSI-väylän osia odottamalla toiminnon valmistumista. Tämä voi koputtaa lisäviiveen vaikutukseen odotettaessa toiminnon valmistumista. Jos paljon tallennustoimintoja on jo käynnissä lento-aikana, tallennus on ehkä viimeisteltäva ennen uudelleenskannausta.

Olemme havainneet, että PTAgentin ja ESXi:n uudelleenskannaukset ovat joskus käytännössä samat. Tämä voi viivästyttää vastausta uudelleen tarkistuksen aikana, mikä toisinaan aiheuttaa vSAN-kuntohälytyksen. vSAN:n kunto ei käynnistä hälytystä epäonnistuneesta testistä, mutta sen testi on merkitty epäonnistuneeksi, koska vSAN-kuntokysely aikakatkesi.
Yleisesti ongelma liittyy ajoitukseen. vSAN-kunnon kyselyissä on lyhyt aikakatkaisu, eikä siinä ole uudelleenyritystä tai muuta tarkistusmekanismia virheen vahvistamiseksi. Kun PTAgent- ja ESXi-tarkistus suoritetaan samanaikaisesti (yhdessä muiden jonossa olevien I/O-toimintojen kanssa), viive saattaa riittää vSAN-kunnon aikakatkaisuun.

Resolution

Ongelman voi kiertää poistamalla PTAgentin uudelleenskannauksen käytöstä ja jättämällä oletusarvoisen ESXi-tallennusjärjestelmän uudelleenskannauksen paikalleen. Tämä tarkoittaa käytännössä samaa tarkistusväliä, jota VMware käyttää oletusarvoisesti vSAN:n kanssa. Tämän muutoksen myötä tieto- tai I/O-toiminnoille ei ole vaaraa. Se tarkoittaa, että uudelleen tarkistus ei tapahdu yhtä usein, mutta lisättävät tai poistettavat levyt eivät ole yleisiä. Jos levy lisätään käytön aikana, HBA:lla on erityinen logiikka, joka ilmoittaa käyttöjärjestelmälle (ESXi) levyn muutoksesta. Joskus levyjä lisätään tai poistetaan, kun palvelin on sammutettu, ja uudelleen tarkistus on osa käynnistysjärjestystä. Joissakin tapauksissa rinnakkaiset tarkistukset voivat olla suotavia. kuten replikoinnin vikasietoisuus tai uudet levyt, jotka on lisätty iSCSI-, FC- tai FCoE-levyjärjestelmään). Vikasietoisuusmekanismit, kuten SRM, voivat kuitenkin käsitellä tätä tekemällä ylimääräisiä uudelleenskannauksia tai käyttävät näiden levytyyppien ominaisuuksia (kuten FC:n RSCN:ää). Tämän ei pitäisi koskea mitään näistä tilanteisiin, ja vaikka ne ovat käytössä, ESXi käsittelee niitä hyvin.

Kiertotapa:
HUOMAUTUS: PTAgent 1.9.2 ja uudemmat toimivat oikein:

Tarkista VxRail-julkaisutiedot nykyiseen julkaisuversioon sisältyvästä PTAgent-versiosta.

1) Tarkista, käynnistävätkö tarkistukset edelleen:

[root@vs218:~] grep -w "Dispatch rescan" /var/run/log/hostd.log |tail -10
2019-10-17T12:16:06.080Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan
2019-10-17T12:16:07.231Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan done


2) Siirrä ESXi-isäntä ylläpitotilaan.

3) Poista uudelleenskannaus käytöstä näillä komennoilla:

       # /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_scan_enabled=false
       # /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_poll_interval_minutes=0

4) Varmista, että se on poistettu käytöstä

       # /opt/dell/DellPTAgent/tools/pta_cfg list |grep "in_band_device"
           in_band_device_poll_interval_minutes => 0
           in_band_device_scan_enabled          => False
       # grep -A4 in_band_device_scan_enabled /scratch/dell/config/PTAgent.config
           "in_band_device_scan_enabled": {
               "value": false,
               "defaultValue": true,
               "description": "On ESXi platforms, controls if PT-agent should force adapter scans periodically (controlled by in_band_device_poll_interval_minutes) before probing storage devices."
           },

5) Käynnistä solmun PTAgent-palvelu uudelleen seuraavasti:

       # /etc/init.d/DellPTAgent restart

6) Sulje huoltotila.

7) Toista samat vaiheet kaikille klusterin solmuille.

Additional Information

PTAgent-uudelleenskannauksen poistaminen käytöstä ei aiheuta tallennuskapasiteettia tai toiminnallisuutta, sillä ESXi tekee sen itsekin säännöllisin välein.
Vaikka kaistan sisäinen laitetarkistus ei olisi käytössä, PTAgent skannaa silti käynnistyksen yhteydessä. Jos oire toistuu tarkistuksen poistamisen jälkeenkin, on tärkeää tutkia, miksi PTAgent käynnistetään uudelleen toistuvasti.

Article Properties

Affected Product

VxRail Appliance Family

Product

VxRail Appliance Family, VxRail Appliance Series, VxRail E Series Nodes, VxRail E460, VxRail E560, VxRail E560F, VxRail P470, VxRail P570, VxRail P570F, VxRail S570, VxRail Software

Dell EMC VxRail: vSAN Health ilmoittaa ajoittain "Hosts with communication issues" -viesteistä

Summary: VxRail VSAN -klusterin ESXi-isännissä voi ilmetä tilapäisiä yhteysongelmia, ja seurauksena voi olla VSAN-kuntoilmoitus Hosts with communication issues -virheilmoituksista.

Article Content

Symptoms

Cause

Resolution

Additional Information

Article Properties

Affected Product

Product

Last Published Date

Version

Article Type

Welcome

Welcome to Dell

Dell EMC VxRail: vSAN Health ilmoittaa ajoittain "Hosts with communication issues" -viesteistä

Summary: VxRail VSAN -klusterin ESXi-isännissä voi ilmetä tilapäisiä yhteysongelmia, ja seurauksena voi olla VSAN-kuntoilmoitus Hosts with communication issues -virheilmoituksista.

Article Content

Symptoms

Cause

Resolution

Additional Information

Article Properties

Affected Product

Product

Last Published Date

Version

Article Type