Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Dell EMC VxRail: vSAN Health bazen "Hosts with communication issues" (İletişim sorunları olan ana bilgisayarlar) mesajları bildirebilir

Summary: VxRail VSAN kümesi içindeki ESXi ana bilgisayarları geçici bağlantı sorunlarıyla ilgili olabilir ve sonuç olarak VSAN durumu , "İletişim sorunları olan ana bilgisayarlar" hata mesajlarını bildirebilebilir. ...

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Ana bilgisayarlar, bağlantı sorunlarını zaman zaman bildirebilirsiniz. Ana bilgisayarlar bağlı kalır ancak vSAN sağlık kontrolü düzenli aralıklarla iletişim sorunları olan rastgele ana bilgisayarları gösterebilir. VSAN durumu yeniden test edilirse sorun kaybolur ancak birkaç dakika sonra geri gelir.

Etkilenen sürümler:
Şu ana kadar VxRail 4.5.x ve 4.7.x sürümlerinin etkilenmiştir. 

Günlük analizi özeti:

vCenter'da oluşturulan vSAN sağlık alarmlarını görüntülenebilir:

2019-08-14T12:56:01.422Z INFO vsan-mgmt[EventMonitor] [VsanEventUtil::_generateVcEvent opID=noOpId] Generate VC event for managed object NC1V01 with testName=Hosts with connectivity issues, testId=com.vmware.vsan.health.test.hostconnectivity, preStatus=green, curStatus=red
vmware-vsan-health-summary-result.log dosyasında vSAN sağlık ana bilgisayar bağlantı sorunlarını abilirsiniz:
2019-08-14T12:56:01.355Z INFO vsan-mgmt[EventMonitor] [VsanHealthSummaryLogUtil::PrintHealthResult opID=noOpId] Cluster NB1X01  Overall Health : red
   Group network health : red
      Test hostdisconnected health : green
      Test hostconnectivity health : red
         HostsWithCommunicationIssues: Host
                                       (Host-234),
      Test clusterpartition health : green
      Test vsanvmknic health : green
      Test smallping health : green
      Test largeping health : green
      Test vmotionpingsmall health : green
      Test vmotionpinglarge health : green
      Test hostlatencycheck health : green
         NetworkLatencyCheckResults: FromHost  ToHost  NetworkLatency(Ms)  NetworkLatencyCheckResult
                                     (Host-227, Host-236, 0.18, Green), (Host-227, Host-234, 0.23, Green), (Host-227, Host-238, 0.16, Green), (Host-227, Host-232, 0.12, Green), (Host-234, Host-232, 0.27, Green),
                                     (Host-234, Host-238, 0.31, Green), (Host-234, Host-236, 0.29, Green), (Host-234, Host-227, 0.26, Green), (Host-236, Host-227, 0.1, Green), (Host-236, Host-234, 0.12, Green),
                                     (Host-236, Host-238, 0.1, Green), (Host-236, Host-232, 0.1, Green), (Host-232, Host-236, 0.1, Green), (Host-232, Host-238, 0.1, Green), (Host-232, Host-234, 0.12, Green),
                                     (Host-232, Host-227, 0.11, Green), (Host-238, Host-232, 0.15, Green), (Host-238, Host-236, 0.11, Green), (Host-238, Host-234, 0.23, Green), (Host-238, Host-227, 0.12, Green),
   Group cloudhealth health : yellow
      Test vsancloudhealthceipexception health : yellow
   Group vum health : yellow
      Test vumconfig health : yellow


 
vmware-vsan-health-service.log:

2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::InvokeMethod opID=noOpId] Timed out for host nc1v02ps12.corp.ukrail.net in invoke-method:vsanSystem:Query
HostStatus
2019-08-14T12:55:54.403Z INFO vsan-mgmt[Thread-590807] [VsanPyVmomiProfiler::logProfile opID=noOpId]   invoke-method:vsanSystem:QueryHostStatus: 8.44s:nc1v02ps12.corp.ukrail.net
2019-08-14T12:55:54.403Z ERROR vsan-mgmt[Thread-590807] [VsanClusterHealthSystemImpl::PerHostQueryNetworkHealth opID=noOpId] Exception in host nc1v02ps12.corp.ukrail.net:
Traceback (most recent call last):
  File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 1004, in PerHostQueryNetworkHealth
    SetHostClusterUuid(host, hostInfos[host], fetchHostStatus=True)
  File "C:\Program Files\VMware\vCenter Server\vsan-health\pyMoVsan\VsanClusterHealthSystemImpl.py", line 784, in SetHostClusterUuid
    status = vs.QueryHostStatus()
..
..
..
    return self._sslobj.read(len, buffer)
  File "C:\Program Files\VMware\vCenter Server\python\lib\ssl.py", line 583, in read
    v = self._sslobj.read(len, buffer)
socket.timeout: The read operation timed out
 

Cause

Varsayılan olarak PTAgent, SCSI aygıtını gerçekleştirmek için ayarlanmıştır ve her 3 dakikada bir veri yolu yeniden tarar. Bu sorgu türü, sunucuya bağlı yeni diskleri veya diğer donanım aygıtlarını aramanızı sağlar. Ayrıca iSCSI gibi diğer blok aygıtlarını kontrol etmek için genişletilmiştir. Temel olarak, yakın zamanda yeni diskler ekli olup olmadığını görmek için yerel HBA'yı kontrol etmeye çalışıruz. 
ESXi depolama yığını aynı zamanda kendi aygıtını gerçekleştirir ve varsayılan olarak her 5 dakikada bir veriyolunu yeniden tarar. Bir aygıt ve veri yolu yeniden tarama, depolama bakış açılarından pahalı bir işlemdir. Bu, SCSI veri yolu parçalarının işlemin tamamlanmasını beklerken engellenmiş olmasıyla sonuçlanır. Bu, işlemin tamamlandıktan sonra gecikme süresinin artmasına etkisine neden olabilir. Halihazırda uçuşta çok fazla depolama işlemi varsa yeniden taramaya geçmeden önce bunları bitirmeleri gerekebilir.

PTAgent ve ESXi'nin temel olarak aynı anda yeniden taramalara sahip olduğunu tespit edilmiştir. Bu, yeniden taramalar tamamlandıktan sonra yanıt gecikmesi ile sonuçlansa da bazen vSAN durum alarmlarını tetikler. vSAN durumu, başarısız bir test için alarm tetiklemez ancak çalıştırlandığı test, vSAN sağlık sorgusu zaman aşımına uysa başarısız olarak işaretlenir.
Genel olarak sorun zamanlamadan biri. vSAN durumu, sorguların yanıt vermesi için kısa bir zaman aşımına sahiptir ve bir arızayı onaylamak için yeniden deneme veya başka bir doğrulama mekanizmasına sahip değildir. PTAgent ve ESXi'nin aynı anda (diğer kuyruğa alınmış G/Ç ile birlikte) yeniden tarama işlemi, vSAN sağlık zaman aşımını tetikleyen kadar gecikmeye neden olabilir.

Resolution

Geçici çözüm, PTAgent yeniden taramasını devre dışı bırakmak ve temel olarak varsayılan ESXi depolama yeniden taramasını yerine bırakmaktır. Bu, temel olarak VMware'in varsayılan olarak vSAN ile aynı tarama aralığını kullanır. Bu değişiklikle birlikte veri veya G/Ç işlemleri için risk yok. Bu, yeniden taramanın sıklıkla oluşmay anlamına gelir ancak eklenen veya kaldırılan diskler sık görülen bir durum değildir. Çalışır durumda takılabilir bir disk eklenirse HBA'nın, işletim sistemine (ESXi) disk değişikliği olduğunu bildirmek için özel bir mantığı vardır. Diğer zamanlarda sunucu kapalıyken ve yeniden tarama işlemi önyükleme sırasının bir parçası olduğunda diskler ekler veya çıkarabilirsiniz. Paralel yeniden taramanın istenebilir olduğu bazı durumlar vardır. Çoğaltma yük devretme veya iSCSI, FC, FCoE diziden eklenen yeni diskler gibi). Ancak SRM gibi yük devretme mekanizmalarının bunu ek yeniden taramalar aracılığıyla ele alan mantığı vardır veya bu disk türlerinin (FC'deki RSCN gibi) özelliklerini kullanıyorlardır. Bu senaryolardan hiçbiri bu durumda geçerli değildir ve ESXi çalışırken bile bunları iyi şekilde ele almamalıdır.

Geçici çözüm:
NOT: Aşağıdaki davranış PTAgent 1.9.2 ve üzeri sürümlere doğru şekilde uygulanmalıdır. 

Geçerli sürümde yer alan PTAgent sürümü için VxRail sürüm notlarını kontrol edin.
1) Yeniden taramaların gerçekten de tetikte olup olduğunu kontrol edin:

[root@vs218:~] grep -w "Dispatch rescan" /var/run/log/hostd.log |tail -10
2019-10-17T12:16:06.080Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan
2019-10-17T12:16:07.231Z info hostd[2106293] [Originator@6876 sub=Solo.VmwareCLI opID=esxcli-0a-ae0b user=root] Dispatch rescan done

2) ESXi ana bilgisayarını bakım moduna alın.

3) Aşağıdaki komutları uygulayarak yeniden taramayı devre dışı bırakma:

       # /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_scan_enabled=false
       # /opt/dell/DellPTAgent/tools/pta_cfg set in_band_device_poll_interval_minutes=0
4) Devre dışı bırakıldığından emin olun:
       # /opt/dell/DellPTAgent/tools/pta_cfg list |grep "in_band_device"
           in_band_device_poll_interval_minutes => 0
           in_band_device_scan_enabled          => False
       # grep -A4 in_band_device_scan_enabled /scratch/dell/config/PTAgent.config
           "in_band_device_scan_enabled": {
               "value": false,
               "defaultValue": true,
               "description": "On ESXi platforms, controls if PT-agent should force adapter scans periodically (controlled by in_band_device_poll_interval_minutes) before probing storage devices."
           },
5) Düğümdeki PTAgent hizmetini şu şekilde yeniden başlatın:

       # /etc/init.d/DellPTAgent restart
6) Bakım modundan çıkma.

7) Kümedeki tüm düğümler için aynı adımları tekrarlayın.



Additional Information

ESXi zaten kendisini düzenli aralıklarla taraysa da PTAgent yeniden tarama özelliğini kapatarak depolama kapasitesi veya işlevsellik sorunları bulunmaz.
Bant içi aygıt taraması devre dışı bırakılsa bile PTAgent, başlatma sırasında taramaya devam ederse. Tarama devre dışı bırakıldıktan sonra bile belirti devam ederse PTAgent'ın tekrar tekrar yeniden başlatılmasının nedeninin incelenmesi gerekir.

Article Properties


Affected Product

VxRail Appliance Family

Product

VxRail Appliance Family, VxRail Appliance Series, VxRail E Series Nodes, VxRail E460, VxRail E560, VxRail E560F, VxRail P470, VxRail P570, VxRail P570F, VxRail S570, VxRail Software

Last Published Date

17 Jun 2023

Version

6

Article Type

Solution