Article Number: 000056125
vSAN-kuntohälytys näkyy vCenterissä:
2019-08-14T12:56:01.422Z INFO vsan-mgmt[EventMonitor] [VsanEventUtil::_generateVcEvent opID=noOpId] Generate VC event for managed object NC1V01 with testName=Hosts with connectivity issues, testId=com.vmware.vsan.health.test.hostconnectivity, preStatus=green, curStatus=redvmware-vsan-health-summary-result.log-lokissa näkyy vSAN-kuntoisännän yhteysongelmia:
2019-08-14T12:56:01.355Z INFO vsan-mgmt[EventMonitor] [VsanHealthSummaryLogUtil::PrintHealthResult opID=noOpId] Cluster NB1X01 Overall Health : red Group network health : red Test hostdisconnected health : green Test hostconnectivity health : red HostsWithCommunicationIssues: Host (Host-234), Test clusterpartition health : green Test vsanvmknic health : green Test smallping health : green Test largeping health : green Test vmotionpingsmall health : green Test vmotionpinglarge health : green Test hostlatencycheck health : green NetworkLatencyCheckResults: FromHost ToHost NetworkLatency(Ms) NetworkLatencyCheckResult (Host-227, Host-236, 0.18, Green), (Host-227, Host-234, 0.23, Green), (Host-227, Host-238, 0.16, Green), (Host-227, Host-232, 0.12, Green), (Host-234, Host-232, 0.27, Green), (Host-234, Host-238, 0.31, Green), (Host-234, Host-236, 0.29, Green), (Host-234, Host-227, 0.26, Green), (Host-236, Host-227, 0.1, Green), (Host-236, Host-234, 0.12, Green), (Host-236, Host-238, 0.1, Green), (Host-236, Host-232, 0.1, Green), (Host-232, Host-236, 0.1, Green), (Host-232, Host-238, 0.1, Green), (Host-232, Host-234, 0.12, Green), (Host-232, Host-227, 0.11, Green), (Host-238, Host-232, 0.15, Green), (Host-238, Host-236, 0.11, Green), (Host-238, Host-234, 0.23, Green), (Host-238, Host-227, 0.12, Green), Group cloudhealth health : yellow Test vsancloudhealthceipexception health : yellow Group vum health : yellow Test vumconfig health : yellow
vmware-vsan-health-service.log:
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::InvokeMethod opID=noOpId] Timed out for host nc1v02ps12.corp.ukrail.net in invoke-method:vsanSystem:Query
HostStatus
2019-08-14T12:55:54.403Z INFO vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::logProfile opID=noOpId] invoke-method:vsanSystem:QueryHostStatus: 8.44s:nc1v02ps12.corp.ukrail.net
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanClusterHealthSystemImpl::PerHostQueryNetworkHealth opID=noOpId] Exception in host nc1v02ps12.corp.ukrail.net:
Traceback (most recent call last):
File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 1004, in PerHostQueryNetworkHealth
SetHostClusterUuid(host, hostInfos[host], fetchHostStatus=True)
File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 784, in SetHostClusterUuid
status = vs.QueryHostStatus()
..
..
..
return self._sslobj.read(len, buffer)
File "C:\Program Files\VMware\vCenter Server\python\lib\ssl.py", line 583, in read
v = self._sslobj.read(len, buffer)
socket.timeout: The read operation timed out
PTAgent on oletuksena määritetty tekemään SCSI-laite ja väylän tarkistus uudelleen 3 minuutin välein. Tämän tyyppinen kysely on etsiä uusia levyjä tai muita palvelimeen liitettyjä laitteita. Sitä on laajennettu niin, että se tarkistaa myös muut lohkolaitteet, kuten iSCSI:n. Tarkistamme paikallisesta isännän väyläsilta, onko uusia levyjä lisätty hiljattain.
ESXi-tallennuspino tekee myös oman laitteensa ja tarkistaa väylän oletusarvoisesti uudelleen 5 minuutin välein. Laitteiden ja väylän tarkistus on tallennuksen näkökulmasta kallista. Se voi estää tiettyjä SCSI-väylän osia odottamalla toiminnon valmistumista. Tämä voi koputtaa lisäviiveen vaikutukseen odotettaessa toiminnon valmistumista. Jos paljon tallennustoimintoja on jo käynnissä lento-aikana, tallennus on ehkä viimeisteltäva ennen uudelleenskannausta.
Olemme havainneet, että PTAgentin ja ESXi:n uudelleenskannaukset ovat joskus käytännössä samat. Tämä voi viivästyttää vastausta uudelleen tarkistuksen aikana, mikä toisinaan aiheuttaa vSAN-kuntohälytyksen. vSAN:n kunto ei käynnistä hälytystä epäonnistuneesta testistä, mutta sen testi on merkitty epäonnistuneeksi, koska vSAN-kuntokysely aikakatkesi.
Yleisesti ongelma liittyy ajoitukseen. vSAN-kunnon kyselyissä on lyhyt aikakatkaisu, eikä siinä ole uudelleenyritystä tai muuta tarkistusmekanismia virheen vahvistamiseksi. Kun PTAgent- ja ESXi-tarkistus suoritetaan samanaikaisesti (yhdessä muiden jonossa olevien I/O-toimintojen kanssa), viive saattaa riittää vSAN-kunnon aikakatkaisuun.
1) Tarkista, käynnistävätkö tarkistukset edelleen:
[root@vs218:~] grep -w "Dispatch rescan" /var/run/log/hostd.log |tail -10 2019-10-17T12:16:06.080Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan 2019-10-17T12:16:07.231Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan done
2) Siirrä ESXi-isäntä ylläpitotilaan. 3) Poista uudelleenskannaus käytöstä näillä komennoilla:
# /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_scan_enabled=false # /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_poll_interval_minutes=0
4) Varmista, että se on poistettu käytöstä
# /opt/dell/DellPTAgent/tools/pta_cfg list |grep "in_band_device" in_band_device_poll_interval_minutes => 0 in_band_device_scan_enabled => False # grep -A4 in_band_device_scan_enabled /scratch/dell/config/PTAgent.config "in_band_device_scan_enabled": { "value": false, "defaultValue": true, "description": "On ESXi platforms, controls if PT-agent should force adapter scans periodically (controlled by in_band_device_poll_interval_minutes) before probing storage devices." },
5) Käynnistä solmun PTAgent-palvelu uudelleen seuraavasti:
# /etc/init.d/DellPTAgent restart
6) Sulje huoltotila.
7) Toista samat vaiheet kaikille klusterin solmuille.
VxRail Appliance Family
VxRail Appliance Family, VxRail Appliance Series, VxRail E Series Nodes, VxRail E460, VxRail E560, VxRail E560F, VxRail P470, VxRail P570, VxRail P570F, VxRail S570, VxRail Software
17 Jun 2023
6
Solution