VxRail: U uzlů může docházet k vysokému zahlcení LSOM
Summary: U uzlů VxRail verze 4.7.511-526 a 7.0.130-132 může docházet k vysokému zahlcení paměti, což vede k omezení výkonu a možným výpadkům sítě vSAN. V rámci zástupného řešení doporučujeme zakázat službu, která problém způsobuje. Odstranit problém pak lze pomocí upgradu na verzi 4.7.530 / 7.0.200. Na základě článku znalostní databáze VMware 82619 ...
Symptoms
Poznámka: Uvedené informace vycházejí z článku znalostní databáze VMware 82619(externí odkaz). Přečtěte si článek, zda neobsahuje případné novější aktualizace.
Při používání systému VxRail verze 4.7.511-526 a 7.0.130-132 se mohou vyskytnout následující problémy:
- Počet prvků v tabulkách potvrzení přesahuje 100 000 a nesníží se ani v průběhu několika hodin.
- Ztráta schopnosti zobrazovat soubory a složky v datovém úložišti vSAN
- Závažné snížení výkonu
- Jeden nebo více uzlů s vysokým zahlcením paměti LSOM (Local Log Structured Object Management) (viz příkaz 1).
- Počet prvků v tabulkách potvrzení přesahuje 100 000 (viz příkaz 2).
- Zahlcení paměti, které se rozšíří do všech uzlů v clusteru.
- Zprávy v protokolu vmkernel.log:
LSOM: LSOM_ThrowCongestionVOB:3429: Throttled: Virtual SAN node "HOSTNAME" maximum Memory congestion reached.
- Zprávy v protokolu vobd.log a vmkernel.log
LSOM_ThrowAsyncCongestionVOB:1669: LSOM Memory Congestion State: Exceeded. Congestion Threshold: 200 Current Congestion: 204.
Pomocí následujících skriptovaných příkazů lze určit, zda se hostitel s tímto problémem potýká.
Scénář 1
while true; do echo "================================================"; date; for ssd in $(localcli vsan storage list |grep "Group UUID"|awk '{print $5}'|sort -u);do echo $ssd;vsish -e get /vmkModules/lsom/disks/$ssd/info|grep Congestion;done; for ssd in $(localcli vsan storage list |grep "Group UUID"|awk '{print $5}'|sort -u);do llogTotal=$(vsish -e get /vmkModules/lsom/disks/$ssd/info|grep "Log space consumed by LLOG"|awk -F : '{print $2}');plogTotal=$(vsish -e get /vmkModules/lsom/disks/$ssd/info|grep "Log space consumed by PLOG"|awk -F : '{print $2}');llogGib=$(echo $llogTotal |awk '{print $1 / 1073741824}');plogGib=$(echo $plogTotal |awk '{print $1 / 1073741824}');allGibTotal=$(expr $llogTotal + $plogTotal|awk '{print $1 / 1073741824}');echo $ssd;echo " LLOG consumption: $llogGib";echo " PLOG consumption: $plogGib";echo " Total log consumption: $allGibTotal";done;sleep 30; done ;
Ukázkový výstup
Fri Feb 12 06:40:51 UTC 2021
529dd4dc--xxxx-xxxx-xxxx-xxxxxxxxxxxx
memCongestion:0 >> This value is higher than 0 ( ranger 0-250 )
slabCongestion:0
ssdCongestion:0
iopsCongestion:0
logCongestion:0
compCongestion:0
memCongestionLocalMax:0
slabCongestionLocalMax:0
ssdCongestionLocalMax:0
iopsCongestionLocalMax:0
logCongestionLocalMax:0
compCongestionLocalMax:0
529dd4dc-xxxx-xxxx-xxxx-xxxxxxxxxxxxxx
LLOG consumption: 0.270882
PLOG consumption: 0.632553
Total log consumption: 0.903435
Scénář 2
vsish -e ls /vmkModules/lsom/disks/ 2>/dev/null | while read d ; do echo -n ${d/\//} ; vsish -e get /vmkModules/lsom/disks/${d}WBQStats | grep "Number of elements in commit tables" ; done | grep -v ":0$"
Ukázkový výstup
(Tento je pouze na discích mezipaměti; můžete ignorovat všechny výsledky kapacitních disků)
52f395f3-03fd-f005-bf02-40287362403b/ Number of elements in commit tables:300891 526709f4-8790-8a91-2151-a491e2d3aec5/ Number of elements in commit tables:289371
Cause
Ve verzích vSAN 6.7 P04 a vSAN 7.0 U1 P02 byly upraveny hodnoty konfigurace čističe tak, aby objekty probíhaly s vyšší frekvencí. Tato změna má za následek trvalý průběh tažení každého objektu častěji než dříve. Pokud jsou v clusteru nečinné objekty, proces odstraňování pro ně v paměti LSOM shromáždí potvrzené položky tabulky. Nakonec akumulace vede k zahlcení paměti LSOM.
Nečinné objekty v tomto kontextu odkazují na objekty, které nejsou přidružené, vypnuté virtuální počítače, replikované objekty atd.
Resolution
Pokud má hostitel vysoký počet prvků v tabulkách potvrzení, jak je určeno ve skriptu 2, doporučuje se jeden ze dvou následujících kroků, aby se zahlcení odstranilo.
- Přepněte problematického hostitele do režimu údržby pomocí funkce Ensure Accessibility a restartujte hostitele.
- Pomocí funkce Ensure Accessibility odpojte a znovu připojte skupiny disků každého hostitele.
Řešení:
Pokud upgrade nelze provést, proveďte následující změny rozšířeného nastavení, které tento problém zmírní.
- Změňte frekvenci pračky na jednou ročně:
esxcfg-advcfg -s 1 /VSAN/ObjectScrubsPerYear
- Zakázat časovač trvalého scrubberu:
esxcfg-advcfg -s 0 /VSAN/ObjectScrubPersistMin