VxRail: Düğümlerde yüksek LSOM tıkanıklığı yaşanabilir
Summary: 4.7.511-526 ve 7.0.130-132 sürümlerindeki VxRail düğümleri, performans sorunlarına ve olası vSAN kesintilerine yol açan yüksek bellek tıkanıklığı durumuyla karşılaşabilir. Soruna neden olan hizmetleri devre dışı bırakmak için geçici bir çözüm mevcuttur; 4.7.530/7.0.200 sürümüne yükseltmek bu sorunu giderecektir. VMware KB 82619 temel alınmıştır. ...
Symptoms
Not: Bilgiler, VMware KB 82619'a(Harici Bağlantı) dayalı olarak sağlanmıştır. Yeni olması muhtemel güncelleştirmeler için makaleyi gözden geçirin.
VxRail 4.7.511-526 ve 7.0.130-132 sürümlerini çalıştırırken aşağıdaki sorunlarla karşılaşabilirsiniz:
- "Number of elements in the commit tables" (İşleme tablolarındaki öğe sayısı) değerinin 100.000'den fazla olması ve saatler sonra bu sayının azalmaması
- vSAN veri deposundaki dosya ve klasörleri görememe
- Ciddi performans düşüşü
- Yüksek düzeyde Yerel Günlük Yapılandırılmış Nesne Yönetimi (LSOM) bellek tıkanıklığı gösteren bir veya daha fazla düğüm (bkz. komut 1).
- "Number of elements in the commit tables" (İşleme tablolarındaki öğe sayısı) değerinin 100.000'den fazla olması (bkz. komut 2)
- Kümedeki tüm düğümlere yayılan bellek tıkanıklığı durumu
- vmkernel.log dosyasındaki günlük mesajları:
LSOM: LSOM_ThrowCongestionVOB:3429: Throttled: Virtual SAN node "HOSTNAME" maximum Memory congestion reached.
- vobd.log ve vmkernel.log dosyalarındaki günlük mesajları
LSOM_ThrowAsyncCongestionVOB:1669: LSOM Memory Congestion State: Exceeded. Congestion Threshold: 200 Current Congestion: 204.
Aşağıdaki komut dosyası komutları, ana bilgisayarın bu sorunla karşılaşıp karşılaşmadığını belirlemek için kullanılabilir.
Komut Dosyası 1
while true; do echo "================================================"; date; for ssd in $(localcli vsan storage list |grep "Group UUID"|awk '{print $5}'|sort -u);do echo $ssd;vsish -e get /vmkModules/lsom/disks/$ssd/info|grep Congestion;done; for ssd in $(localcli vsan storage list |grep "Group UUID"|awk '{print $5}'|sort -u);do llogTotal=$(vsish -e get /vmkModules/lsom/disks/$ssd/info|grep "Log space consumed by LLOG"|awk -F : '{print $2}');plogTotal=$(vsish -e get /vmkModules/lsom/disks/$ssd/info|grep "Log space consumed by PLOG"|awk -F : '{print $2}');llogGib=$(echo $llogTotal |awk '{print $1 / 1073741824}');plogGib=$(echo $plogTotal |awk '{print $1 / 1073741824}');allGibTotal=$(expr $llogTotal + $plogTotal|awk '{print $1 / 1073741824}');echo $ssd;echo " LLOG consumption: $llogGib";echo " PLOG consumption: $plogGib";echo " Total log consumption: $allGibTotal";done;sleep 30; done ;
Örnek çıktı
Fri Feb 12 06:40:51 UTC 2021
529dd4dc--xxxx-xxxx-xxxx-xxxxxxxxxxxx
memCongestion:0 >> This value is higher than 0 ( ranger 0-250 )
slabCongestion:0
ssdCongestion:0
iopsCongestion:0
logCongestion:0
compCongestion:0
memCongestionLocalMax:0
slabCongestionLocalMax:0
ssdCongestionLocalMax:0
iopsCongestionLocalMax:0
logCongestionLocalMax:0
compCongestionLocalMax:0
529dd4dc-xxxx-xxxx-xxxx-xxxxxxxxxxxxxx
LLOG consumption: 0.270882
PLOG consumption: 0.632553
Total log consumption: 0.903435
Komut Dosyası 2
vsish -e ls /vmkModules/lsom/disks/ 2>/dev/null | while read d ; do echo -n ${d/\//} ; vsish -e get /vmkModules/lsom/disks/${d}WBQStats | grep "Number of elements in commit tables" ; done | grep -v ":0$"
Örnek çıktı
(Bu yalnızca önbellek disklerinde bulunur; kapasite disklerinin sonuçlarını yok sayabilirsiniz)
52f395f3-03fd-f005-bf02-40287362403b/ Number of elements in commit tables:300891 526709f4-8790-8a91-2151-a491e2d3aec5/ Number of elements in commit tables:289371
Cause
Scrubber yapılandırma değerleri, nesneleri daha yüksek bir frekansta temizlemek için vSAN 6.7 P04 ve vSAN 7.0 U1 P02 sürümlerinde değiştirildi. Bu değişiklik, her nesnenin eskisinden daha sık kaydırma ilerlemesinin kalıcı olmasına neden olur. Kümede boşta nesneler varsa temizleyici, LSOM'deki bu nesneler için işleme tablosu girişlerini biriktirir. Sonunda, birikim LSOM bellek tıkanıklığına yol açar.
Bu bağlamda boşta olan nesneler; ilişkilendirilmemiş, kapalı VM'ler, çoğaltılmış nesneler vb. anlamına gelir.
Resolution
sürümlere güncelleyin Bir ana bilgisayarın işleme tablolarında çok sayıda öğesi varsa, komut dosyası 2'de belirtildiği gibi, tıkanıklığı gidermek için aşağıdaki iki adımdan biri önerilir.
- Sorunlu ana bilgisayarı Ensure Accessibility (Erişilebilirliği Sağla) seçeneğiyle bakım moduna alın ve ana bilgisayarı yeniden başlatın.
- Ensure Accessibility (Erişilebilirliği Sağla) seçeneğini kullanarak her bir ana bilgisayarın disk gruplarının bağlantısını kaldırın ve bunları yeniden bağlayın.
Geçi -ci çözüm:
Yükseltme yapılamıyorsa bu sorunun etkisini azaltmak için şimdilik aşağıdaki gelişmiş ayar değişikliklerini uygulayın.
- Yıkayıcı sıklığını yılda bir kez olarak değiştirin:
esxcfg-advcfg -s 1 /VSAN/ObjectScrubsPerYear
- Disable scrubber persist timer:
esxcfg-advcfg -s 0 /VSAN/ObjectScrubPersistMin