Article Number: 000056125
W vCenter wyświetlany jest alarm kondycji vSAN:
2019-08-14T12:56:01.422Z INFO vsan-mgmt[EventMonitor] [VsanEventUtil::_generateVcEvent opID=noOpId] Generate VC event for managed object NC1V01 with testName=Hosts with connectivity issues, testId=com.vmware.vsan.health.test.hostconnectivity, preStatus=green, curStatus=redW pliku vmware-vsan-health-summary-result.log można zobaczyć problemy z połączeniem hosta kondycji vSAN:
2019-08-14T12:56:01.355Z INFO vsan-mgmt[EventMonitor] [VsanHealthSummaryLogUtil::PrintHealthResult opID=noOpId] Cluster NB1X01 Overall Health : red Group network health : red Test hostdisconnected health : green Test hostconnectivity health : red HostsWithCommunicationIssues: Host (Host-234), Test clusterpartition health : green Test vsanvmknic health : green Test smallping health : green Test largeping health : green Test vmotionpingsmall health : green Test vmotionpinglarge health : green Test hostlatencycheck health : green NetworkLatencyCheckResults: FromHost ToHost NetworkLatency(Ms) NetworkLatencyCheckResult (Host-227, Host-236, 0.18, Green), (Host-227, Host-234, 0.23, Green), (Host-227, Host-238, 0.16, Green), (Host-227, Host-232, 0.12, Green), (Host-234, Host-232, 0.27, Green), (Host-234, Host-238, 0.31, Green), (Host-234, Host-236, 0.29, Green), (Host-234, Host-227, 0.26, Green), (Host-236, Host-227, 0.1, Green), (Host-236, Host-234, 0.12, Green), (Host-236, Host-238, 0.1, Green), (Host-236, Host-232, 0.1, Green), (Host-232, Host-236, 0.1, Green), (Host-232, Host-238, 0.1, Green), (Host-232, Host-234, 0.12, Green), (Host-232, Host-227, 0.11, Green), (Host-238, Host-232, 0.15, Green), (Host-238, Host-236, 0.11, Green), (Host-238, Host-234, 0.23, Green), (Host-238, Host-227, 0.12, Green), Group cloudhealth health : yellow Test vsancloudhealthceipexception health : yellow Group vum health : yellow Test vumconfig health : yellow
vmware-vsan-health-service.log:
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::InvokeMethod opID=noOpId] Timed out for host nc1v02ps12.corp.ukrail.net in invoke-method:vsanSystem:Query
HostStatus
2019-08-14T12:55:54.403Z INFO vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::logProfile opID=noOpId] invoke-method:vsanSystem:QueryHostStatus: 8.44s:nc1v02ps12.corp.ukrail.net
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanClusterHealthSystemImpl::PerHostQueryNetworkHealth opID=noOpId] Exception in host nc1v02ps12.corp.ukrail.net:
Traceback (most recent call last):
File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 1004, in PerHostQueryNetworkHealth
SetHostClusterUuid(host, hostInfos[host], fetchHostStatus=True)
File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 784, in SetHostClusterUuid
status = vs.QueryHostStatus()
..
..
..
return self._sslobj.read(len, buffer)
File "C:\Program Files\VMware\vCenter Server\python\lib\ssl.py", line 583, in read
v = self._sslobj.read(len, buffer)
socket.timeout: The read operation timed out
Domyślnie ptagent jest ustawiony tak, aby wykonywać ponowną próbę urządzenia SCSI i magistrali co 3 minuty. Ten typ zapytania polega na wyszukiwaniu nowych dysków lub innych urządzeń sprzętowych, które są podłączone do serwera. Został on rozszerzony o sprawdzanie innych urządzeń blokowych, takich jak iSCSI. W istocie sprawdzamy lokalną kartę HBA, aby sprawdzić, czy ostatnio dodano nowe dyski.
Stos pamięci masowej ESXi również domyślnie wykonuje własne urządzenie i ponownie zeskanowanie magistrali co 5 minut. Ponowne zeskanowanie urządzenia i magistrali jest kosztowną operacją z punktu widzenia pamięci masowej. Może to spowodować zablokowanie niektórych części magistrali SCSI w oczekiwaniu na zakończenie operacji. Może to mieć wpływ na większe opóźnienia oczekiwania na zakończenie operacji. Jeśli w locie jest już wiele operacji pamięci masowej, może być konieczne ich zakończenie, zanim przejdzie do ponownego zeskanowania.
Stwierdziliśmy, że czasami ptagent i ESXi ponownie zeskanują się w tym samym czasie. Może to spowodować opóźnienie w reakcji podczas wykonywania ponownego skanowania, co czasami powoduje alarm kondycji vSAN. Kondycja vSAN nie wyzwala alarmu w przypadku nieudanego testu, ale test, który jest uruchomiony, jest oznaczony jako nieudany, ponieważ upłynął limit czasu kwerendy o kondycję vSAN.
Ogólnie rzecz biorąc, problem dotyczy jednego z terminów. VSAN health has a short timeout for queries to respond, and has no retry or other verification mechanism to confirm a fault.vSAN health has a short timeout for queries to respond, and has no retry or other verification mechanism to confirm a fault. Ponowne zeskanowanie z PTAgent i ESXi uruchomione jednocześnie (wraz z innymi kolejkami we/wy) może spowodować opóźnienie na tyle długo, że wyzwala limit czasu vSAN.
1) Sprawdź, czy ponowne skanowanie jest nadal wyzwalane:
[root@vs218:~] grep -w "Dispatch rescan" /var/run/log/hostd.log |tail -10 2019-10-17T12:16:06.080Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan 2019-10-17T12:16:07.231Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan done
2) Przełącz hosta ESXi w tryb konserwacji. 3) Wyłącz ponowne skanowanie, stosując następujące polecenia:
# /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_scan_enabled=false # /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_poll_interval_minutes=0
4) Upewnij się, że jest wyłączona
# /opt/dell/DellPTAgent/tools/pta_cfg list |grep "in_band_device" in_band_device_poll_interval_minutes => 0 in_band_device_scan_enabled => False # grep -A4 in_band_device_scan_enabled /scratch/dell/config/PTAgent.config "in_band_device_scan_enabled": { "value": false, "defaultValue": true, "description": "On ESXi platforms, controls if PT-agent should force adapter scans periodically (controlled by in_band_device_poll_interval_minutes) before probing storage devices." },
5) Uruchom ponownie usługę PTAgent w węźle z następującymi opcjami:
# /etc/init.d/DellPTAgent restart
6) Wyjdź z trybu konserwacji.
7) Powtórz te same czynności dla wszystkich węzłów w klastrze.
VxRail Appliance Family
VxRail Appliance Family, VxRail Appliance Series, VxRail E Series Nodes, VxRail E460, VxRail E560, VxRail E560F, VxRail P470, VxRail P570, VxRail P570F, VxRail S570, VxRail Software
17 Jun 2023
6
Solution