Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.
Some article numbers may have changed. If this isn't what you're looking for, try searching all articles. Search articles

Dell EMC VxRail: vSAN Health rapporteert af en toe "Hosts with communication issues" berichten

Summary: ESXi-hosts binnen een VxRail VSAN cluster kunnen tijdelijke verbindingsproblemen ondervinden en als gevolg daarvan kan de VSAN-status foutmeldingen "Hosts with communication issues" rapporteren. ...

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Hosts kunnen af en toe verbindingsproblemen melden. Hosts blijven verbonden, maar vSAN healthcheck kan periodiek willekeurige hosts weergeven met communicatieproblemen. Als de VSAN-status opnieuw wordt getest, verdwijnt het probleem, maar keert het na een paar minuten terug.

Getroffen versies:
Tot nu toe zien we dat VxRail versies 4.5.x en 4.7.x worden beïnvloed. 

Samenvatting van analyse van logboeken:

We kunnen zien dat het vSAN-status alarm wordt gegenereerd in vCenter:

2019-08-14T12:56:01.422Z INFO vsan-mgmt[EventMonitor] [VsanEventUtil::_generateVcEvent opID=noOpId] Generate VC event for managed object NC1V01 with testName=Hosts with connectivity issues, testId=com.vmware.vsan.health.test.hostconnectivity, preStatus=green, curStatus=red
In vmware-vsan-health-summary-result.log kunnen we verbindingsproblemen met vSAN health host zien:
2019-08-14T12:56:01.355Z INFO vsan-mgmt[EventMonitor] [VsanHealthSummaryLogUtil::PrintHealthResult opID=noOpId] Cluster NB1X01  Overall Health : red
   Group network health : red
      Test hostdisconnected health : green
      Test hostconnectivity health : red
         HostsWithCommunicationIssues: Host
                                       (Host-234),
      Test clusterpartition health : green
      Test vsanvmknic health : green
      Test smallping health : green
      Test largeping health : green
      Test vmotionpingsmall health : green
      Test vmotionpinglarge health : green
      Test hostlatencycheck health : green
         NetworkLatencyCheckResults: FromHost  ToHost  NetworkLatency(Ms)  NetworkLatencyCheckResult
                                     (Host-227, Host-236, 0.18, Green), (Host-227, Host-234, 0.23, Green), (Host-227, Host-238, 0.16, Green), (Host-227, Host-232, 0.12, Green), (Host-234, Host-232, 0.27, Green),
                                     (Host-234, Host-238, 0.31, Green), (Host-234, Host-236, 0.29, Green), (Host-234, Host-227, 0.26, Green), (Host-236, Host-227, 0.1, Green), (Host-236, Host-234, 0.12, Green),
                                     (Host-236, Host-238, 0.1, Green), (Host-236, Host-232, 0.1, Green), (Host-232, Host-236, 0.1, Green), (Host-232, Host-238, 0.1, Green), (Host-232, Host-234, 0.12, Green),
                                     (Host-232, Host-227, 0.11, Green), (Host-238, Host-232, 0.15, Green), (Host-238, Host-236, 0.11, Green), (Host-238, Host-234, 0.23, Green), (Host-238, Host-227, 0.12, Green),
   Group cloudhealth health : yellow
      Test vsancloudhealthceipexception health : yellow
   Group vum health : yellow
      Test vumconfig health : yellow


 
vmware-vsan-health-service.log:

2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::InvokeMethod opID=noOpId] Timed out for host nc1v02ps12.corp.ukrail.net in invoke-method:vsanSystem:Query
HostStatus
2019-08-14T12:55:54.403Z INFO vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::logProfile opID=noOpId]   invoke-method:vsanSystem:QueryHostStatus: 8.44s:nc1v02ps12.corp.ukrail.net
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanClusterHealthSystemImpl::PerHostQueryNetworkHealth opID=noOpId] Exception in host nc1v02ps12.corp.ukrail.net:
Traceback (most recent call last):
  File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 1004, in PerHostQueryNetworkHealth
    SetHostClusterUuid(host, hostInfos[host], fetchHostStatus=True)
  File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 784, in SetHostClusterUuid
    status = vs.QueryHostStatus()
..
..
..
    return self._sslobj.read(len, buffer)
  File "C:\Program Files\VMware\vCenter Server\python\lib\ssl.py", line 583, in read
    v = self._sslobj.read(len, buffer)
socket.timeout: The read operation timed out
 

Cause

PTAgent is standaard ingesteld om elke 3 minuten een SCSI-apparaat en bus opnieuw te scannen. Dit type query is het zoeken naar nieuwe schijven of andere hardwareapparaten die zijn aangesloten op de server. Het is uitgebreid om ook andere blokapparaten, zoals iSCSI, te controleren. In feite controleren we de lokale HBA om te zien of er onlangs nieuwe schijven zijn toegevoegd. 
De ESXi-storagestack voert ook zijn eigen apparaat uit en elke 5 minuten wordt elke 5 minuten opnieuw gescand, ook op zoek naar hetzelfde. Een apparaat- en busscan is een dure bewerking vanuit het oogpunt van storage. Dit kan ertoe leiden dat bepaalde onderdelen van de SCSI-bus worden geblokkeerd terwijl de bewerking is voltooid. Dit kan gevolgen hebben voor de toename van de latentie die wacht tot de bewerking is voltooid. Als er al veel storagebewerkingen tijdens de vlucht zijn, moet u ze mogelijk laten voltooien voordat het opnieuw kan worden gescand.

We hebben vastgesteld dat er momenten zijn waarop PTAgent en ESXi rescans uitvoeren op in wezen dezelfde tijd. Dit kan leiden tot een vertraging in een reactie terwijl de rescans worden voltooid, waardoor af en toe een vSAN-status alarm wordt geactiveerd. vSAN-status activeert geen alarm voor een mislukte test, maar de test die wordt uitgevoerd, is gemarkeerd als mislukt als time-out van de vSAN-statusquery.
Over het algemeen is het probleem een van de timing. vSAN-status heeft een korte time-out voor query's om te reageren en heeft geen opnieuw proberen of ander verificatiemechanisme om een fout te bevestigen. Het opnieuw scannen van PTAgent en ESXi die tegelijkertijd worden uitgevoerd (samen met andere in de wachtrij gebouwde I/O) kan leiden tot een vertraging die lang genoeg is waardoor de vSAN-status-time-out wordt geactiveerd.

Resolution

De tijdelijke oplossing is om de PTAgent rescan uit te schakelen en de standaard ESXi-storage opnieuw te scannen. Dit is in feite het gebruik van hetzelfde rescan-interval dat VMware standaard gebruikt met vSAN. Er is geen risico voor data- of I/O-bewerkingen met deze wijziging. Dit betekent dat de rescan niet zo vaak zal plaatsvinden, maar dat schijven die worden toegevoegd of verwijderd, niet iets is dat vaak voorkomt. Als een schijf wordt toegevoegd via hotplug, heeft de HBA speciale logica om het besturingssysteem (ESXi) te informeren dat er een schijfwijziging is aangebracht. Andere keren dat u schijven toevoegt of verwijdert wanneer de server is uitgeschakeld en een rescan deel uitmaakt van de opstartvolgorde. In sommige gevallen kunnen parallelle rescans wenselijk zijn. Zoals failover van replicatie of nieuwe schijven die zijn toegevoegd vanaf een iSCSI-, FC-, FCoE-array). Maar failovermechanismen zoals SRM hebben logica om dit te verwerken via extra rescans, of gebruiken functies van deze typen schijven (zoals RSCN in FC). Geen van deze scenario's zou in dit geval van toepassing moeten zijn en zelfs wanneer ze in het spel zijn, kan ESXi ze goed verwerken.

Tijdelijke oplossing:
Opmerking: het volgende gedrag is correct geïmplementeerd op PTAgent 1.9.2 en hoger. 

Controleer de VxRail releaseopmerkingen voor de PTAgent-versie die is opgenomen in de huidige release.
1) Controleer of rescans inderdaad nog steeds activeren:

[root@vs218:~] grep -w "Dispatch rescan" /var/run/log/hostd.log |tail -10
2019-10-17T12:16:06.080Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan
2019-10-17T12:16:07.231Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan done

2) Zet de ESXi-host in de onderhoudsmodus.

3) Schakel de rescan uit door deze opdrachten toe te passen:

       # /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_scan_enabled=false
       # /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_poll_interval_minutes=0
4) Controleer of deze is uitgeschakeld met
       # /opt/dell/DellPTAgent/tools/pta_cfg list |grep "in_band_device"
           in_band_device_poll_interval_minutes => 0
           in_band_device_scan_enabled          => False
       # grep -A4 in_band_device_scan_enabled /scratch/dell/config/PTAgent.config
           "in_band_device_scan_enabled": {
               "value": false,
               "defaultValue": true,
               "description": "On ESXi platforms, controls if PT-agent should force adapter scans periodically (controlled by in_band_device_poll_interval_minutes) before probing storage devices."
           },
5) Start de PTAgent-service op het knooppunt opnieuw op met:

       # /etc/init.d/DellPTAgent restart
6) Sluit de onderhoudsmodus af.

7) Herhaal dezelfde stappen voor alle knooppunten in het cluster.



Additional Information

Er zijn geen problemen met storagemogelijkheden of functionaliteit door PTAgent rescan uit te schakelen, omdat ESXi dit al regelmatig doet.
Zelfs als de in-band apparaatscan is uitgeschakeld, scant PTAgent nog steeds bij het opstarten. Als het symptoom zich ook na het uitschakelen van de scan blijft voordoen, is het noodzakelijk om te kijken naar de reden waarom PTAgent herhaaldelijk opnieuw wordt opgestart.

Article Properties


Affected Product

VxRail Appliance Family

Product

VxRail Appliance Family, VxRail Appliance Series, VxRail E Series Nodes, VxRail E460, VxRail E560, VxRail E560F, VxRail P470, VxRail P570, VxRail P570F, VxRail S570, VxRail Software

Last Published Date

17 Jun 2023

Version

6

Article Type

Solution