Article Number: 000056125
Vi kan se vSAN-helsealarmen som genereres i vCenter:
2019-08-14T12:56:01.422Z INFO vsan-mgmt[EventMonitor] [VsanEventUtil::_generateVcEvent opID=noOpId] Generate VC event for managed object NC1V01 with testName=Hosts with connectivity issues, testId=com.vmware.vsan.health.test.hostconnectivity, preStatus=green, curStatus=redFra vmware-vsan-health-summary-result.log kan vi se problemer med tilkobling av vSAN-tilstandsvert:
2019-08-14T12:56:01.355Z INFO vsan-mgmt[EventMonitor] [VsanHealthSummaryLogUtil::PrintHealthResult opID=noOpId] Cluster NB1X01 Overall Health : red Group network health : red Test hostdisconnected health : green Test hostconnectivity health : red HostsWithCommunicationIssues: Host (Host-234), Test clusterpartition health : green Test vsanvmknic health : green Test smallping health : green Test largeping health : green Test vmotionpingsmall health : green Test vmotionpinglarge health : green Test hostlatencycheck health : green NetworkLatencyCheckResults: FromHost ToHost NetworkLatency(Ms) NetworkLatencyCheckResult (Host-227, Host-236, 0.18, Green), (Host-227, Host-234, 0.23, Green), (Host-227, Host-238, 0.16, Green), (Host-227, Host-232, 0.12, Green), (Host-234, Host-232, 0.27, Green), (Host-234, Host-238, 0.31, Green), (Host-234, Host-236, 0.29, Green), (Host-234, Host-227, 0.26, Green), (Host-236, Host-227, 0.1, Green), (Host-236, Host-234, 0.12, Green), (Host-236, Host-238, 0.1, Green), (Host-236, Host-232, 0.1, Green), (Host-232, Host-236, 0.1, Green), (Host-232, Host-238, 0.1, Green), (Host-232, Host-234, 0.12, Green), (Host-232, Host-227, 0.11, Green), (Host-238, Host-232, 0.15, Green), (Host-238, Host-236, 0.11, Green), (Host-238, Host-234, 0.23, Green), (Host-238, Host-227, 0.12, Green), Group cloudhealth health : yellow Test vsancloudhealthceipexception health : yellow Group vum health : yellow Test vumconfig health : yellow
vmware-vsan-health-service.log:
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::InvokeMethod opID=noOpId] Timed out for host nc1v02ps12.corp.ukrail.net in invoke-method:vsanSystem:Query
HostStatus
2019-08-14T12:55:54.403Z INFO vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::logProfile opID=noOpId] invoke-method:vsanSystem:QueryHostStatus: 8.44s:nc1v02ps12.corp.ukrail.net
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanClusterHealthSystemImpl::PerHostQueryNetworkHealth opID=noOpId] Exception in host nc1v02ps12.corp.ukrail.net:
Traceback (most recent call last):
File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 1004, in PerHostQueryNetworkHealth
SetHostClusterUuid(host, hostInfos[host], fetchHostStatus=True)
File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 784, in SetHostClusterUuid
status = vs.QueryHostStatus()
..
..
..
return self._sslobj.read(len, buffer)
File "C:\Program Files\VMware\vCenter Server\python\lib\ssl.py", line 583, in read
v = self._sslobj.read(len, buffer)
socket.timeout: The read operation timed out
Som standard er PTAgent angitt til å utføre en SCSI-enhet, og bussen kan søkes på nytt hvert tredje minutt. Denne typen spørring er å se etter nye disker eller andre maskinvareenheter som er koblet til serveren. Den har blitt utvidet til å også kontrollere andre blokkenheter, for eksempel iSCSI. I hovedsak sjekker vi den lokale HBA-en for å se om det nylig er lagt til nye disker.
ESXi-lagringsstabelen utfører også sin egen enhet, og bussen kan skann på nytt hvert femte minutt som standard, og ser også etter det samme. En enhet og busskanne er en dyr operasjon fra et lagringssynspunkt. Det kan føre til at visse deler av SCSI-bussen blokkeres mens du venter på at operasjonen skal fullføres. Dette kan ha innvirkning på den økte ventetiden når du venter på at operasjonen skal fullføres. Hvis det allerede er mange lagringsoperasjoner i fly, kan det hende at de må fullføres før de kan gå til rescan.
Vi har funnet ut at PTAgent og ESXi noen ganger kjører på nytt samtidig. Dette kan føre til en forsinkelse i et svar mens reskannene fullføres, noe som av og til utløser en vSAN-helsealarm. vSAN-tilstand utløser ikke en alarm for en mislykket test, men testen den kjører, merkes som mislykket da vSAN-tilstandsspørringen ble tidsavbrutt.
Totalt sett er problemet én tidsberegning. vSAN-tilstand har en kort tidsavbrudd for forespørsler om å svare, og har ingen forsøk eller annen bekreftelsesmekanisme for å bekrefte en feil. Rescan fra PTAgent og ESXi som kjører samtidig (sammen med andre I/O i kø) kan føre til en forsinkelse lenge nok til at det utløser tidsavbrudd for vSAN-tilstand.
1) Kontroller om rescans faktisk fortsatt utløser:
[root@vs218:~] grep -w "Dispatch rescan" /var/run/log/hostd.log |tail -10 2019-10-17T12:16:06.080Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan 2019-10-17T12:16:07.231Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan done
2) Sett ESXi-verten i vedlikeholdsmodus. 3) Deaktiver rescan ved å bruke disse kommandoene:
# /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_scan_enabled=false # /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_poll_interval_minutes=0
4) Bekreft at den er deaktivert med
# /opt/dell/DellPTAgent/tools/pta_cfg list |grep "in_band_device" in_band_device_poll_interval_minutes => 0 in_band_device_scan_enabled => False # grep -A4 in_band_device_scan_enabled /scratch/dell/config/PTAgent.config "in_band_device_scan_enabled": { "value": false, "defaultValue": true, "description": "On ESXi platforms, controls if PT-agent should force adapter scans periodically (controlled by in_band_device_poll_interval_minutes) before probing storage devices." },
5) Start PTAgent-tjenesten på nytt på noden med:
# /etc/init.d/DellPTAgent restart
6) Avslutt vedlikeholdsmodus.
7) Gjenta samme trinn for alle noder i klyngen.
VxRail Appliance Family
VxRail Appliance Family, VxRail Appliance Series, VxRail E Series Nodes, VxRail E460, VxRail E560, VxRail E560F, VxRail P470, VxRail P570, VxRail P570F, VxRail S570, VxRail Software
17 Jun 2023
6
Solution