Article Number: 000056125
VSAN-hälsolarm genereras i vCenter:
2019-08-14T12:56:01.422Z INFO vsan-mgmt[EventMonitor] [VsanEventUtil::_generateVcEvent opID=noOpId] Generate VC event for managed object NC1V01 with testName=Hosts with connectivity issues, testId=com.vmware.vsan.health.test.hostconnectivity, preStatus=green, curStatus=redI vmware-vsan-health-summary-result.log kan vi se problem med vSAN-hälsovärdanslutning:
2019-08-14T12:56:01.355Z INFO vsan-mgmt[EventMonitor] [VsanHealthSummaryLogUtil::PrintHealthResult opID=noOpId] Cluster NB1X01 Overall Health : red Group network health : red Test hostdisconnected health : green Test hostconnectivity health : red HostsWithCommunicationIssues: Host (Host-234), Test clusterpartition health : green Test vsanvmknic health : green Test smallping health : green Test largeping health : green Test vmotionpingsmall health : green Test vmotionpinglarge health : green Test hostlatencycheck health : green NetworkLatencyCheckResults: FromHost ToHost NetworkLatency(Ms) NetworkLatencyCheckResult (Host-227, Host-236, 0.18, Green), (Host-227, Host-234, 0.23, Green), (Host-227, Host-238, 0.16, Green), (Host-227, Host-232, 0.12, Green), (Host-234, Host-232, 0.27, Green), (Host-234, Host-238, 0.31, Green), (Host-234, Host-236, 0.29, Green), (Host-234, Host-227, 0.26, Green), (Host-236, Host-227, 0.1, Green), (Host-236, Host-234, 0.12, Green), (Host-236, Host-238, 0.1, Green), (Host-236, Host-232, 0.1, Green), (Host-232, Host-236, 0.1, Green), (Host-232, Host-238, 0.1, Green), (Host-232, Host-234, 0.12, Green), (Host-232, Host-227, 0.11, Green), (Host-238, Host-232, 0.15, Green), (Host-238, Host-236, 0.11, Green), (Host-238, Host-234, 0.23, Green), (Host-238, Host-227, 0.12, Green), Group cloudhealth health : yellow Test vsancloudhealthceipexception health : yellow Group vum health : yellow Test vumconfig health : yellow
vmware-vsan-health-service.log:
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::InvokeMethod opID=noOpId] Timed out for host nc1v02ps12.corp.ukrail.net in invoke-method:vsanSystem:Query
HostStatus
2019-08-14T12:55:54.403Z INFO vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::logProfile opID=noOpId] invoke-method:vsanSystem:QueryHostStatus: 8.44s:nc1v02ps12.corp.ukrail.net
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanClusterHealthSystemImpl::PerHostQueryNetworkHealth opID=noOpId] Exception in host nc1v02ps12.corp.ukrail.net:
Traceback (most recent call last):
File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 1004, in PerHostQueryNetworkHealth
SetHostClusterUuid(host, hostInfos[host], fetchHostStatus=True)
File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 784, in SetHostClusterUuid
status = vs.QueryHostStatus()
..
..
..
return self._sslobj.read(len, buffer)
File "C:\Program Files\VMware\vCenter Server\python\lib\ssl.py", line 583, in read
v = self._sslobj.read(len, buffer)
socket.timeout: The read operation timed out
SOM standard är PTAgent inställd på att utföra en SCSI-enhet och genomsöka bussen var tredje minut. Den här typen av fråga är att söka efter nya diskar eller andra maskinvaruenheter som är anslutna till servern. Det har utökats för att även kontrollera andra blockenheter, till exempel iSCSI. I princip kontrollerar vi den lokala värdbussadapterenheten för att se om några nya diskar har lagts till nyligen.
ESXi-lagringsstacken utför även en egen enhets- och bussomsökning var femte minut som standard också söker efter samma sak. En enhets- och bussomsökning är en dyr åtgärd ur lagringssynpunkt. Det kan leda till att vissa delar av SCSI-bussen blockeras i väntan på att åtgärden slutförs. Det kan påverka den ökade fördröjningen i väntan på att åtgärden slutförs. Om det redan pågår många lagringsåtgärder kan de behöva slutföras innan de kan gå vidare till genomsökningen.
Vi har upptäckt att det finns tillfällen då PTAgent och ESXi kör rescans samtidigt. Det kan leda till fördröjning i ett svar när genomsökningarna slutförs, vilket ibland utlöser ett vSAN-hälsolarm. vSAN-tillstånd utlöser inte ett larm för ett misslyckat test, men testet som körs markeras som misslyckat eftersom vSAN-hälsofrågan överser tidsgränsen.
Överlag är problemet en tidsinställning. vSAN-tillstånd har kort tidsgräns för svar på frågor och har inga försök eller någon annan verifieringsmekanism för att bekräfta ett fel. Omsökningen från PTAgent och ESXi körs samtidigt (tillsammans med andra I/O i kö) kan resultera i en fördröjning som utlöser tidsgränsen för vSAN-tillstånd.
1) Kontrollera om genomsökningar verkligen fortfarande utlöses:
[root@vs218:~] grep -w "Dispatch rescan" /var/run/log/hostd.log |tail -10 2019-10-17T12:16:06.080Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan 2019-10-17T12:16:07.231Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan done
2) Sätt ESXi-värden i underhållsläge. 3) Avaktivera genomsökningen genom att använda följande kommandon:
# /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_scan_enabled=false # /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_poll_interval_minutes=0
4) Kontrollera att den är avaktiverad med
# /opt/dell/DellPTAgent/tools/pta_cfg list |grep "in_band_device" in_band_device_poll_interval_minutes => 0 in_band_device_scan_enabled => False # grep -A4 in_band_device_scan_enabled /scratch/dell/config/PTAgent.config "in_band_device_scan_enabled": { "value": false, "defaultValue": true, "description": "On ESXi platforms, controls if PT-agent should force adapter scans periodically (controlled by in_band_device_poll_interval_minutes) before probing storage devices." },
5) Starta om PTAgent-tjänsten på noden med:
# /etc/init.d/DellPTAgent restart
6) Avsluta underhållsläget.
7) Upprepa samma steg för alla noder i klustret.
VxRail Appliance Family
VxRail Appliance Family, VxRail Appliance Series, VxRail E Series Nodes, VxRail E460, VxRail E560, VxRail E560F, VxRail P470, VxRail P570, VxRail P570F, VxRail S570, VxRail Software
17 Jun 2023
6
Solution