Article Number: 000056125
Podemos ver que la alarma de estado de vSAN se genera y se muestra en vCenter:
2019-08-14T12:56:01.422Z INFO vsan-mgmt[EventMonitor] [VsanEventUtil::_generateVcEvent opID=noOpId] Generate VC event for managed object NC1V01 with testName=Hosts with connectivity issues, testId=com.vmware.vsan.health.test.hostconnectivity, preStatus=green, curStatus=redEn vmware-vsan-health-summary-result.log , podemos ver problemas de conexión del host de estado de vSAN:
2019-08-14T12:56:01.355Z INFO vsan-mgmt[EventMonitor] [VsanHealthSummaryLogUtil::PrintHealthResult opID=noOpId] Cluster NB1X01 Overall Health : red Group network health : red Test hostdisconnected health : green Test hostconnectivity health : red HostsWithCommunicationIssues: Host (Host-234), Test clusterpartition health : green Test vsanvmknic health : green Test smallping health : green Test largeping health : green Test vmotionpingsmall health : green Test vmotionpinglarge health : green Test hostlatencycheck health : green NetworkLatencyCheckResults: FromHost ToHost NetworkLatency(Ms) NetworkLatencyCheckResult (Host-227, Host-236, 0.18, Green), (Host-227, Host-234, 0.23, Green), (Host-227, Host-238, 0.16, Green), (Host-227, Host-232, 0.12, Green), (Host-234, Host-232, 0.27, Green), (Host-234, Host-238, 0.31, Green), (Host-234, Host-236, 0.29, Green), (Host-234, Host-227, 0.26, Green), (Host-236, Host-227, 0.1, Green), (Host-236, Host-234, 0.12, Green), (Host-236, Host-238, 0.1, Green), (Host-236, Host-232, 0.1, Green), (Host-232, Host-236, 0.1, Green), (Host-232, Host-238, 0.1, Green), (Host-232, Host-234, 0.12, Green), (Host-232, Host-227, 0.11, Green), (Host-238, Host-232, 0.15, Green), (Host-238, Host-236, 0.11, Green), (Host-238, Host-234, 0.23, Green), (Host-238, Host-227, 0.12, Green), Group cloudhealth health : yellow Test vsancloudhealthceipexception health : yellow Group vum health : yellow Test vumconfig health : yellow
vmware-vsan-health-service.log:
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::InvokeMethod opID=noOpId] Timed out for host nc1v02ps12.corp.ukrail.net in invoke-method:vsanSystem:Query
HostStatus
2019-08-14T12:55:54.403Z INFO vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::logProfile opID=noOpId] invoke-method:vsanSystem:QueryHostStatus: 8.44s:nc1v02ps12.corp.ukrail.net
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanClusterHealthSystemImpl::PerHostQueryNetworkHealth opID=noOpId] Exception in host nc1v02ps12.corp.ukrail.net:
Traceback (most recent call last):
File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 1004, in PerHostQueryNetworkHealth
SetHostClusterUuid(host, hostInfos[host], fetchHostStatus=True)
File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 784, in SetHostClusterUuid
status = vs.QueryHostStatus()
..
..
..
return self._sslobj.read(len, buffer)
File "C:\Program Files\VMware\vCenter Server\python\lib\ssl.py", line 583, in read
v = self._sslobj.read(len, buffer)
socket.timeout: The read operation timed out
PtAgent está configurado de manera predeterminada para realizar una reexaminación de bus y un dispositivo SCSI cada 3 minutos. Este tipo de consulta es para buscar discos nuevos u otros dispositivos de hardware conectados al servidor. Se extendió para comprobar también otros dispositivos de bloque, como iSCSI. Esencialmente, estamos comprobando el HBA local para ver si se han agregado nuevos discos recientemente.
La pila de almacenamiento de ESXi también realiza su propio dispositivo y reexaminación de bus cada 5 minutos de manera predeterminada y también busca lo mismo. Una reexaminación de dispositivo y bus es una operación costosa desde el punto de vista del almacenamiento. Esto puede provocar que ciertas partes del bus SCSI se bloqueen a la espera de que se complete la operación. Esto puede tener un impacto en el aumento de la latencia a la espera de que se complete la operación. Si ya hay muchas operaciones de almacenamiento en transferencia, es posible que deba dejarlas terminar antes de que puedan ir a la reexaminación.
Hemos identificado que hay ocasiones en que PTAgent y ESXi han reexaminado la ejecución esencialmente al mismo tiempo. Esto puede provocar un retraso en una respuesta mientras se completan las reexaminaciones, lo que ocasionalmente activa una alarma de estado de vSAN. El estado de vSAN no activa una alarma para una prueba fallida, pero la prueba que está ejecutando se marca como fallida, ya que se agota el tiempo de espera de la consulta de estado de vSAN.
En general, el problema es uno de los tiempos. El estado de vSAN tiene un tiempo de espera breve para que las consultas respondan y no tiene ningún reintento u otro mecanismo de verificación para confirmar una falla. El reexaminar desde PTAgent y ESXi que se ejecuta simultáneamente (junto con otras I/O en línea de espera) puede provocar una demora lo suficientemente prolongada como para activar el tiempo de espera agotado de estado de vSAN.
1) Compruebe si las reexaminaciones aún se están activando:
[root@vs218:~] grep -w "Dispatch rescan" /var/run/log/hostd.log |tail -10 2019-10-17T12:16:06.080Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan 2019-10-17T12:16:07.231Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan done
2) Coloque el host ESXi en modo de mantenimiento. 3) Deshabilite la reexaminación mediante la aplicación de estos comandos:
# /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_scan_enabled=false # /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_poll_interval_minutes=0
4) Confirme que está deshabilitado con
# /opt/dell/DellPTAgent/tools/pta_cfg list |grep "in_band_device" in_band_device_poll_interval_minutes => 0 in_band_device_scan_enabled => False # grep -A4 in_band_device_scan_enabled /scratch/dell/config/PTAgent.config "in_band_device_scan_enabled": { "value": false, "defaultValue": true, "description": "On ESXi platforms, controls if PT-agent should force adapter scans periodically (controlled by in_band_device_poll_interval_minutes) before probing storage devices." },
5) Reinicie el servicio PTAgent en el nodo con lo siguiente:
# /etc/init.d/DellPTAgent restart
6) Salga del modo de mantenimiento.
7) Repita los mismos pasos para todos los nodos del clúster.
VxRail Appliance Family
VxRail Appliance Family, VxRail Appliance Series, VxRail E Series Nodes, VxRail E460, VxRail E560, VxRail E560F, VxRail P470, VxRail P570, VxRail P570F, VxRail S570, VxRail Software
17 Jun 2023
6
Solution