Article Number: 000056125
We kunnen zien dat het vSAN-status alarm wordt gegenereerd in vCenter:
2019-08-14T12:56:01.422Z INFO vsan-mgmt[EventMonitor] [VsanEventUtil::_generateVcEvent opID=noOpId] Generate VC event for managed object NC1V01 with testName=Hosts with connectivity issues, testId=com.vmware.vsan.health.test.hostconnectivity, preStatus=green, curStatus=redIn vmware-vsan-health-summary-result.log kunnen we verbindingsproblemen met vSAN health host zien:
2019-08-14T12:56:01.355Z INFO vsan-mgmt[EventMonitor] [VsanHealthSummaryLogUtil::PrintHealthResult opID=noOpId] Cluster NB1X01 Overall Health : red Group network health : red Test hostdisconnected health : green Test hostconnectivity health : red HostsWithCommunicationIssues: Host (Host-234), Test clusterpartition health : green Test vsanvmknic health : green Test smallping health : green Test largeping health : green Test vmotionpingsmall health : green Test vmotionpinglarge health : green Test hostlatencycheck health : green NetworkLatencyCheckResults: FromHost ToHost NetworkLatency(Ms) NetworkLatencyCheckResult (Host-227, Host-236, 0.18, Green), (Host-227, Host-234, 0.23, Green), (Host-227, Host-238, 0.16, Green), (Host-227, Host-232, 0.12, Green), (Host-234, Host-232, 0.27, Green), (Host-234, Host-238, 0.31, Green), (Host-234, Host-236, 0.29, Green), (Host-234, Host-227, 0.26, Green), (Host-236, Host-227, 0.1, Green), (Host-236, Host-234, 0.12, Green), (Host-236, Host-238, 0.1, Green), (Host-236, Host-232, 0.1, Green), (Host-232, Host-236, 0.1, Green), (Host-232, Host-238, 0.1, Green), (Host-232, Host-234, 0.12, Green), (Host-232, Host-227, 0.11, Green), (Host-238, Host-232, 0.15, Green), (Host-238, Host-236, 0.11, Green), (Host-238, Host-234, 0.23, Green), (Host-238, Host-227, 0.12, Green), Group cloudhealth health : yellow Test vsancloudhealthceipexception health : yellow Group vum health : yellow Test vumconfig health : yellow
vmware-vsan-health-service.log:
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::InvokeMethod opID=noOpId] Timed out for host nc1v02ps12.corp.ukrail.net in invoke-method:vsanSystem:Query
HostStatus
2019-08-14T12:55:54.403Z INFO vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::logProfile opID=noOpId] invoke-method:vsanSystem:QueryHostStatus: 8.44s:nc1v02ps12.corp.ukrail.net
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanClusterHealthSystemImpl::PerHostQueryNetworkHealth opID=noOpId] Exception in host nc1v02ps12.corp.ukrail.net:
Traceback (most recent call last):
File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 1004, in PerHostQueryNetworkHealth
SetHostClusterUuid(host, hostInfos[host], fetchHostStatus=True)
File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 784, in SetHostClusterUuid
status = vs.QueryHostStatus()
..
..
..
return self._sslobj.read(len, buffer)
File "C:\Program Files\VMware\vCenter Server\python\lib\ssl.py", line 583, in read
v = self._sslobj.read(len, buffer)
socket.timeout: The read operation timed out
PTAgent is standaard ingesteld om elke 3 minuten een SCSI-apparaat en bus opnieuw te scannen. Dit type query is het zoeken naar nieuwe schijven of andere hardwareapparaten die zijn aangesloten op de server. Het is uitgebreid om ook andere blokapparaten, zoals iSCSI, te controleren. In feite controleren we de lokale HBA om te zien of er onlangs nieuwe schijven zijn toegevoegd.
De ESXi-storagestack voert ook zijn eigen apparaat uit en elke 5 minuten wordt elke 5 minuten opnieuw gescand, ook op zoek naar hetzelfde. Een apparaat- en busscan is een dure bewerking vanuit het oogpunt van storage. Dit kan ertoe leiden dat bepaalde onderdelen van de SCSI-bus worden geblokkeerd terwijl de bewerking is voltooid. Dit kan gevolgen hebben voor de toename van de latentie die wacht tot de bewerking is voltooid. Als er al veel storagebewerkingen tijdens de vlucht zijn, moet u ze mogelijk laten voltooien voordat het opnieuw kan worden gescand.
We hebben vastgesteld dat er momenten zijn waarop PTAgent en ESXi rescans uitvoeren op in wezen dezelfde tijd. Dit kan leiden tot een vertraging in een reactie terwijl de rescans worden voltooid, waardoor af en toe een vSAN-status alarm wordt geactiveerd. vSAN-status activeert geen alarm voor een mislukte test, maar de test die wordt uitgevoerd, is gemarkeerd als mislukt als time-out van de vSAN-statusquery.
Over het algemeen is het probleem een van de timing. vSAN-status heeft een korte time-out voor query's om te reageren en heeft geen opnieuw proberen of ander verificatiemechanisme om een fout te bevestigen. Het opnieuw scannen van PTAgent en ESXi die tegelijkertijd worden uitgevoerd (samen met andere in de wachtrij gebouwde I/O) kan leiden tot een vertraging die lang genoeg is waardoor de vSAN-status-time-out wordt geactiveerd.
1) Controleer of rescans inderdaad nog steeds activeren:
[root@vs218:~] grep -w "Dispatch rescan" /var/run/log/hostd.log |tail -10 2019-10-17T12:16:06.080Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan 2019-10-17T12:16:07.231Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan done
2) Zet de ESXi-host in de onderhoudsmodus. 3) Schakel de rescan uit door deze opdrachten toe te passen:
# /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_scan_enabled=false # /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_poll_interval_minutes=0
4) Controleer of deze is uitgeschakeld met
# /opt/dell/DellPTAgent/tools/pta_cfg list |grep "in_band_device" in_band_device_poll_interval_minutes => 0 in_band_device_scan_enabled => False # grep -A4 in_band_device_scan_enabled /scratch/dell/config/PTAgent.config "in_band_device_scan_enabled": { "value": false, "defaultValue": true, "description": "On ESXi platforms, controls if PT-agent should force adapter scans periodically (controlled by in_band_device_poll_interval_minutes) before probing storage devices." },
5) Start de PTAgent-service op het knooppunt opnieuw op met:
# /etc/init.d/DellPTAgent restart
6) Sluit de onderhoudsmodus af.
7) Herhaal dezelfde stappen voor alle knooppunten in het cluster.
VxRail Appliance Family
VxRail Appliance Family, VxRail Appliance Series, VxRail E Series Nodes, VxRail E460, VxRail E560, VxRail E560F, VxRail P470, VxRail P570, VxRail P570F, VxRail S570, VxRail Software
17 Jun 2023
6
Solution