Article Number: 000056125
L’alarme d’intégrité vSAN générée s’affiche dans vCenter:
2019-08-14T12:56:01.422Z INFO vsan-mgmt[EventMonitor] [VsanEventUtil::_generateVcEvent opID=noOpId] Generate VC event for managed object NC1V01 with testName=Hosts with connectivity issues, testId=com.vmware.vsan.health.test.hostconnectivity, preStatus=green, curStatus=redÀ partir de vmware-vsan-health-summary-result.log , nous pouvons voir les problèmes de connexion de l’hôte d’intégrité vSAN:
2019-08-14T12:56:01.355Z INFO vsan-mgmt[EventMonitor] [VsanHealthSummaryLogUtil::PrintHealthResult opID=noOpId] Cluster NB1X01 Overall Health : red Group network health : red Test hostdisconnected health : green Test hostconnectivity health : red HostsWithCommunicationIssues: Host (Host-234), Test clusterpartition health : green Test vsanvmknic health : green Test smallping health : green Test largeping health : green Test vmotionpingsmall health : green Test vmotionpinglarge health : green Test hostlatencycheck health : green NetworkLatencyCheckResults: FromHost ToHost NetworkLatency(Ms) NetworkLatencyCheckResult (Host-227, Host-236, 0.18, Green), (Host-227, Host-234, 0.23, Green), (Host-227, Host-238, 0.16, Green), (Host-227, Host-232, 0.12, Green), (Host-234, Host-232, 0.27, Green), (Host-234, Host-238, 0.31, Green), (Host-234, Host-236, 0.29, Green), (Host-234, Host-227, 0.26, Green), (Host-236, Host-227, 0.1, Green), (Host-236, Host-234, 0.12, Green), (Host-236, Host-238, 0.1, Green), (Host-236, Host-232, 0.1, Green), (Host-232, Host-236, 0.1, Green), (Host-232, Host-238, 0.1, Green), (Host-232, Host-234, 0.12, Green), (Host-232, Host-227, 0.11, Green), (Host-238, Host-232, 0.15, Green), (Host-238, Host-236, 0.11, Green), (Host-238, Host-234, 0.23, Green), (Host-238, Host-227, 0.12, Green), Group cloudhealth health : yellow Test vsancloudhealthceipexception health : yellow Group vum health : yellow Test vumconfig health : yellow
vmware-vsan-health-service.log:
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::InvokeMethod opID=noOpId] Timed out for host nc1v02ps12.corp.ukrail.net in invoke-method:vsanSystem:Query
HostStatus
2019-08-14T12:55:54.403Z INFO vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::logProfile opID=noOpId] invoke-method:vsanSystem:QueryHostStatus: 8.44s:nc1v02ps12.corp.ukrail.net
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanClusterHealthSystemImpl::PerHostQueryNetworkHealth opID=noOpId] Exception in host nc1v02ps12.corp.ukrail.net:
Traceback (most recent call last):
File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 1004, in PerHostQueryNetworkHealth
SetHostClusterUuid(host, hostInfos[host], fetchHostStatus=True)
File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 784, in SetHostClusterUuid
status = vs.QueryHostStatus()
..
..
..
return self._sslobj.read(len, buffer)
File "C:\Program Files\VMware\vCenter Server\python\lib\ssl.py", line 583, in read
v = self._sslobj.read(len, buffer)
socket.timeout: The read operation timed out
Par défaut, PTAgent est défini pour effectuer un périphérique SCSI et relancer l’analyse du bus toutes les 3 minutes. Ce type de requête consiste à rechercher de nouveaux disques ou d’autres périphériques matériels connectés au serveur. Il a été étendu pour vérifier également d’autres périphériques en mode bloc tels que iSCSI. Nous vérifions essentiellement l’adaptateur HBA local pour voir si de nouveaux disques ont été ajoutés récemment.
Par défaut, la pile de stockage ESXi effectue également son propre périphérique et le bus effectue une nouvelle analyse toutes les 5 minutes. Une nouvelle analyse des périphériques et des bus est une opération coûteuse du point de vue du stockage. Cela peut entraîner le blocage de certaines parties du bus SCSI en attendant la fin de l’opération. Cela peut avoir un impact sur l’impact de l’augmentation de la latence en attendant la fin de l’opération. S’il y a déjà beaucoup d’opérations de stockage en cours de transfert, il peut être nécessaire de les laisser terminer avant de pouvoir passer à la nouvelle analyse.
Nous avons constaté qu’il arrive que PTAgent et ESXi effectuent de nouveau des analyses en même temps. Cela peut entraîner un retard dans une réponse pendant la fin des nouvelles analyses, ce qui déclenche parfois une alarme d’intégrité vSAN. L’intégrité de vSAN ne déclenche pas d’alarme pour un test en échec, mais le test qu’il exécute est marqué comme étant en échec, car la requête d’intégrité vSAN a expiré.
Dans l’ensemble, le problème est lié au timing. L’intégrité vSAN a un court délai d’expiration pour que les requêtes répondent et n’a pas de nouvelle tentative ou d’autre mécanisme de vérification pour confirmer une panne. La nouvelle analyse à partir de PTAgent et ESXi s’exécutant simultanément (ainsi que d’autres E/S en file d’attente) peut entraîner un délai suffisamment long pour déclencher le délai d’expiration de l’intégrité vSAN.
1) Vérifiez si les relances d’analyse continuent de se déclencher:
[root@vs218:~] grep -w "Dispatch rescan" /var/run/log/hostd.log |tail -10 2019-10-17T12:16:06.080Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan 2019-10-17T12:16:07.231Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan done
2) Mettez l’hôte ESXi en mode maintenance. 3) Désactivez la nouvelle analyse en appliquant les commandes suivantes:
# /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_scan_enabled=false # /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_poll_interval_minutes=0
4) Vérifiez qu’il est désactivé avec
# /opt/dell/DellPTAgent/tools/pta_cfg list |grep "in_band_device" in_band_device_poll_interval_minutes => 0 in_band_device_scan_enabled => False # grep -A4 in_band_device_scan_enabled /scratch/dell/config/PTAgent.config "in_band_device_scan_enabled": { "value": false, "defaultValue": true, "description": "On ESXi platforms, controls if PT-agent should force adapter scans periodically (controlled by in_band_device_poll_interval_minutes) before probing storage devices." },
5) Redémarrez le service PTAgent sur le nœud avec:
# /etc/init.d/DellPTAgent restart
6) Quittez le mode maintenance.
7) Répétez les mêmes étapes pour tous les nœuds du cluster.
VxRail Appliance Family
VxRail Appliance Family, VxRail Appliance Series, VxRail E Series Nodes, VxRail E460, VxRail E560, VxRail E560F, VxRail P470, VxRail P570, VxRail P570F, VxRail S570, VxRail Software
17 Jun 2023
6
Solution