Article Number: 000056125
vCenter에 vSAN 상태 알람이 표시되는 것을 볼 수 있습니다.
2019-08-14T12:56:01.422Z INFO vsan-mgmt[EventMonitor] [VsanEventUtil::_generateVcEvent opID=noOpId] Generate VC event for managed object NC1V01 with testName=Hosts with connectivity issues, testId=com.vmware.vsan.health.test.hostconnectivity, preStatus=green, curStatus=redvmware-vsan-health-summary-result.log에서 vSAN 상태 호스트 연결 문제를 확인할 수 있습니다.
2019-08-14T12:56:01.355Z INFO vsan-mgmt[EventMonitor] [VsanHealthSummaryLogUtil::PrintHealthResult opID=noOpId] Cluster NB1X01 Overall Health : red Group network health : red Test hostdisconnected health : green Test hostconnectivity health : red HostsWithCommunicationIssues: Host (Host-234), Test clusterpartition health : green Test vsanvmknic health : green Test smallping health : green Test largeping health : green Test vmotionpingsmall health : green Test vmotionpinglarge health : green Test hostlatencycheck health : green NetworkLatencyCheckResults: FromHost ToHost NetworkLatency(Ms) NetworkLatencyCheckResult (Host-227, Host-236, 0.18, Green), (Host-227, Host-234, 0.23, Green), (Host-227, Host-238, 0.16, Green), (Host-227, Host-232, 0.12, Green), (Host-234, Host-232, 0.27, Green), (Host-234, Host-238, 0.31, Green), (Host-234, Host-236, 0.29, Green), (Host-234, Host-227, 0.26, Green), (Host-236, Host-227, 0.1, Green), (Host-236, Host-234, 0.12, Green), (Host-236, Host-238, 0.1, Green), (Host-236, Host-232, 0.1, Green), (Host-232, Host-236, 0.1, Green), (Host-232, Host-238, 0.1, Green), (Host-232, Host-234, 0.12, Green), (Host-232, Host-227, 0.11, Green), (Host-238, Host-232, 0.15, Green), (Host-238, Host-236, 0.11, Green), (Host-238, Host-234, 0.23, Green), (Host-238, Host-227, 0.12, Green), Group cloudhealth health : yellow Test vsancloudhealthceipexception health : yellow Group vum health : yellow Test vumconfig health : yellow
vmware-vsan-health-service.log:
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::InvokeMethod opID=noOpId] Timed out for host nc1v02ps12.corp.ukrail.net in invoke-method:vsanSystem:Query
HostStatus
2019-08-14T12:55:54.403Z INFO vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::logProfile opID=noOpId] invoke-method:vsanSystem:QueryHostStatus: 8.44s:nc1v02ps12.corp.ukrail.net
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanClusterHealthSystemImpl::PerHostQueryNetworkHealth opID=noOpId] Exception in host nc1v02ps12.corp.ukrail.net:
Traceback (most recent call last):
File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 1004, in PerHostQueryNetworkHealth
SetHostClusterUuid(host, hostInfos[host], fetchHostStatus=True)
File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 784, in SetHostClusterUuid
status = vs.QueryHostStatus()
..
..
..
return self._sslobj.read(len, buffer)
File "C:\Program Files\VMware\vCenter Server\python\lib\ssl.py", line 583, in read
v = self._sslobj.read(len, buffer)
socket.timeout: The read operation timed out
기본적으로 PTAgent는 SCSI 디바이스를 수행하고 버스는 3분마다 재검사하도록 설정되어 있습니다. 이 유형의 쿼리는 서버에 연결된 새 디스크 또는 기타 하드웨어 디바이스를 찾는 것입니다. iSCSI와 같은 다른 블록 디바이스도 검사하도록 확장되었습니다. 기본적으로 로컬 HBA에서 새 디스크가 최근에 추가되었는지 확인합니다.
또한 ESXi 스토리지 스택은 자체 디바이스를 수행하고 버스는 기본적으로 5분마다 재검사합니다. 디바이스 및 버스 재검사는 스토리지 관점에서 비용이 많이 드는 작업입니다. 이로 인해 SCSI 버스의 특정 부분이 차단되어 작업이 완료될 때까지 대기할 수 있습니다. 이로 인해 작업이 완료될 때까지 대기 시간이 늘어나면 영향을 줄 수 있습니다. 이미 많은 스토리지 작업이 전송 중인 경우 재검사로 이동하기 전에 완료해야 할 수 있습니다.
PTAgent와 ESXi가 기본적으로 동시에 재검사되는 경우가 있다는 것을 확인했습니다. 이로 인해 재검사를 완료하는 동안 응답이 지연되어 vSAN 상태 경보가 발생하는 경우가 있습니다. vSAN 상태가 실패한 테스트에 대한 알람을 트리거하지는 않지만 실행 중인 테스트는 vSAN 상태 쿼리 시간 초과로 실패한 것으로 표시됩니다.
전반적으로 이 문제는 시기 중 하나입니다. vSAN 상태에는 쿼리 응답 시간 초과가 짧으며 오류를 확인하기 위한 재시도 또는 기타 검증 메커니즘이 없습니다. PTAgent 및 ESXi에서 동시에 실행 중인 재검사(다른 대기열 I/O와 함께)로 인해 vSAN 상태 시간 초과가 트리거될 정도로 지연될 수 있습니다.
1) 재검사에서 여전히 트리거되는지 확인합니다.
[root@vs218:~] grep -w "Dispatch rescan" /var/run/log/hostd.log |tail -10 2019-10-17T12:16:06.080Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan 2019-10-17T12:16:07.231Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan done
2) ESXi 호스트를 유지 보수 모드로 전환합니다. 3) 다음 명령을 적용하여 재검출을 비활성화합니다.
# /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_scan_enabled=false # /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_poll_interval_minutes=0
4) 비활성화되어 있는지 확인합니다.
# /opt/dell/DellPTAgent/tools/pta_cfg list |grep "in_band_device" in_band_device_poll_interval_minutes => 0 in_band_device_scan_enabled => False # grep -A4 in_band_device_scan_enabled /scratch/dell/config/PTAgent.config "in_band_device_scan_enabled": { "value": false, "defaultValue": true, "description": "On ESXi platforms, controls if PT-agent should force adapter scans periodically (controlled by in_band_device_poll_interval_minutes) before probing storage devices." },
5) 다음을 통해 노드에서 PTAgent 서비스를 재시작합니다.
# /etc/init.d/DellPTAgent restart
6) 유지 보수 모드를 종료합니다.
7) 클러스터의 모든 노드에 대해 동일한 단계를 반복합니다.
VxRail Appliance Family
VxRail Appliance Family, VxRail Appliance Series, VxRail E Series Nodes, VxRail E460, VxRail E560, VxRail E560F, VxRail P470, VxRail P570, VxRail P570F, VxRail S570, VxRail Software
17 Jun 2023
6
Solution