Article Number: 000056125
È possibile visualizzare l'avviso di integrità di vSAN in vCenter:
2019-08-14T12:56:01.422Z INFO vsan-mgmt[EventMonitor] [VsanEventUtil::_generateVcEvent opID=noOpId] Generate VC event for managed object NC1V01 with testName=Hosts with connectivity issues, testId=com.vmware.vsan.health.test.hostconnectivity, preStatus=green, curStatus=redDa vmware-vsan-health-summary-result.log possiamo vedere problemi di connessione dell'host integrità vSAN:
2019-08-14T12:56:01.355Z INFO vsan-mgmt[EventMonitor] [VsanHealthSummaryLogUtil::PrintHealthResult opID=noOpId] Cluster NB1X01 Overall Health : red Group network health : red Test hostdisconnected health : green Test hostconnectivity health : red HostsWithCommunicationIssues: Host (Host-234), Test clusterpartition health : green Test vsanvmknic health : green Test smallping health : green Test largeping health : green Test vmotionpingsmall health : green Test vmotionpinglarge health : green Test hostlatencycheck health : green NetworkLatencyCheckResults: FromHost ToHost NetworkLatency(Ms) NetworkLatencyCheckResult (Host-227, Host-236, 0.18, Green), (Host-227, Host-234, 0.23, Green), (Host-227, Host-238, 0.16, Green), (Host-227, Host-232, 0.12, Green), (Host-234, Host-232, 0.27, Green), (Host-234, Host-238, 0.31, Green), (Host-234, Host-236, 0.29, Green), (Host-234, Host-227, 0.26, Green), (Host-236, Host-227, 0.1, Green), (Host-236, Host-234, 0.12, Green), (Host-236, Host-238, 0.1, Green), (Host-236, Host-232, 0.1, Green), (Host-232, Host-236, 0.1, Green), (Host-232, Host-238, 0.1, Green), (Host-232, Host-234, 0.12, Green), (Host-232, Host-227, 0.11, Green), (Host-238, Host-232, 0.15, Green), (Host-238, Host-236, 0.11, Green), (Host-238, Host-234, 0.23, Green), (Host-238, Host-227, 0.12, Green), Group cloudhealth health : yellow Test vsancloudhealthceipexception health : yellow Group vum health : yellow Test vumconfig health : yellow
vmware-vsan-health-service.log:
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::InvokeMethod opID=noOpId] Timed out for host nc1v02ps12.corp.ukrail.net in invoke-method:vsanSystem:Query
HostStatus
2019-08-14T12:55:54.403Z INFO vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::logProfile opID=noOpId] invoke-method:vsanSystem:QueryHostStatus: 8.44s:nc1v02ps12.corp.ukrail.net
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanClusterHealthSystemImpl::PerHostQueryNetworkHealth opID=noOpId] Exception in host nc1v02ps12.corp.ukrail.net:
Traceback (most recent call last):
File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 1004, in PerHostQueryNetworkHealth
SetHostClusterUuid(host, hostInfos[host], fetchHostStatus=True)
File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 784, in SetHostClusterUuid
status = vs.QueryHostStatus()
..
..
..
return self._sslobj.read(len, buffer)
File "C:\Program Files\VMware\vCenter Server\python\lib\ssl.py", line 583, in read
v = self._sslobj.read(len, buffer)
socket.timeout: The read operation timed out
Per impostazione predefinita, PTAgent è impostato per eseguire una nuova scansione del dispositivo e del bus SCSI ogni 3 minuti. Questo tipo di query consiste nel cercare nuovi dischi o altri dispositivi hardware collegati al server. È stato esteso anche per controllare altri dispositivi di blocco come iSCSI. In sostanza, stiamo verificando l'HBA locale per verificare se sono stati aggiunti di recente nuovi dischi.
Per impostazione predefinita, lo stack di storage ESXi esegue anche la ripetizione della scansione del proprio dispositivo e del bus ogni 5 minuti. Una ripetizione dell'analisi di dispositivi e bus è un'operazione costosa dal punto di vista dello storage. Ciò può comportare il blocco di alcune parti del bus SCSI in attesa del completamento dell'operazione. Ciò può influire sull'impatto di una maggiore latenza in attesa del completamento dell'operazione. Se al volo sono già presenti numerose operazioni di storage, potrebbe essere necessario lasciarle terminare prima di poter passare alla ripetizione della scansione.
Abbiamo rilevato che in alcuni casi PTAgent ed ESXi hanno eseguito nuovamente le analisi essenzialmente allo stesso tempo. Ciò può causare un ritardo in una risposta durante il completamento delle nuove analisi, che occasionalmente attiva un allarme di integrità vSAN. L'integrità di vSAN non attiva un allarme per un test non riuscito, ma il test in esecuzione viene contrassegnato come non riuscito al timeout della query di stato vSAN.
Nel complesso, il problema è una delle tempistiche. Lo stato di vSAN ha un breve timeout per rispondere alle query e non dispone di alcun nuovo tentativo o altro meccanismo di verifica per confermare un guasto. La ripetizione dell'analisi da PTAgent ed ESXi in esecuzione contemporaneamente (insieme ad altre I/O in coda) può causare un ritardo sufficientemente lungo da attivare il timeout di integrità di vSAN.
1) Verificare se le rescans sono ancora in fase di attivazione:
[root@vs218:~] grep -w "Dispatch rescan" /var/run/log/hostd.log |tail -10 2019-10-17T12:16:06.080Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan 2019-10-17T12:16:07.231Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan done
2) Attivare la modalità di manutenzione dell'host ESXi. 3) Disabilitare la nuova scansione applicando questi comandi:
# /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_scan_enabled=false # /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_poll_interval_minutes=0
4) Verificare che sia disattivata con
# /opt/dell/DellPTAgent/tools/pta_cfg list |grep "in_band_device" in_band_device_poll_interval_minutes => 0 in_band_device_scan_enabled => False # grep -A4 in_band_device_scan_enabled /scratch/dell/config/PTAgent.config "in_band_device_scan_enabled": { "value": false, "defaultValue": true, "description": "On ESXi platforms, controls if PT-agent should force adapter scans periodically (controlled by in_band_device_poll_interval_minutes) before probing storage devices." },
5) Riavviare il servizio PTAgent sul nodo con:
# /etc/init.d/DellPTAgent restart
6) Uscire dalla modalità di manutenzione.
7) Ripetere la stessa procedura per tutti i nodi del cluster.
VxRail Appliance Family
VxRail Appliance Family, VxRail Appliance Series, VxRail E Series Nodes, VxRail E460, VxRail E560, VxRail E560F, VxRail P470, VxRail P570, VxRail P570F, VxRail S570, VxRail Software
17 Jun 2023
6
Solution