VxRail: Knooppunten kunnen te maken krijgen met hoge LSOM-congestie
Summary: VxRail knooppunten 4.7.511-526 en 7.0.130-132 kunnen te maken krijgen met een hoge geheugenconboxing, wat kan leiden tot prestaties en mogelijk vSAN-uitval. Er is een tijdelijke oplossing om services uit te schakelen die het probleem veroorzaken; Een upgrade naar 4.7.530/7.0.200 lost dit probleem op. Gebaseerd op VMware KB 82619 ...
Symptoms
Opmerking: de verstrekte informatie is gebaseerd op VMware KB 82619(externe link). Lees het artikel op mogelijke nieuwere updates.
Bij het uitvoeren van VxRail versies 4.7.511-526 en 7.0.130-132 kunt u de volgende problemen ondervinden:
- "Number of elements in the commit tables" is meer dan 100k en neemt niet af over een periode van uren.
- Verlies van de mogelijkheid om bestanden en mappen in de vSAN-datastore te zien
- Ernstige prestatievermindering
- Een of meer knooppunten met een hoge LSOM-geheugenconbelasting (Local Log Structured Object Management) (zie opdracht 1).
- "Aantal elementen in de vastlegtabellen" is meer dan 100k (zie opdracht 2).
- Geheugenoverbelasting die is doorgegeven aan alle knooppunten in het cluster.
- Hiermee worden berichten in vmkernel.log geregistreerd:
LSOM: LSOM_ThrowCongestionVOB:3429: Throttled: Virtual SAN node "HOSTNAME" maximum Memory congestion reached.
- Registreert berichten in vobd.log en vmkernel.log
LSOM_ThrowAsyncCongestionVOB:1669: LSOM Memory Congestion State: Exceeded. Congestion Threshold: 200 Current Congestion: 204.
De volgende scriptopdrachten kunnen worden gebruikt om te bepalen of de host dit probleem mogelijk ondervindt.
Draaiboek 1
while true; do echo "================================================"; date; for ssd in $(localcli vsan storage list |grep "Group UUID"|awk '{print $5}'|sort -u);do echo $ssd;vsish -e get /vmkModules/lsom/disks/$ssd/info|grep Congestion;done; for ssd in $(localcli vsan storage list |grep "Group UUID"|awk '{print $5}'|sort -u);do llogTotal=$(vsish -e get /vmkModules/lsom/disks/$ssd/info|grep "Log space consumed by LLOG"|awk -F : '{print $2}');plogTotal=$(vsish -e get /vmkModules/lsom/disks/$ssd/info|grep "Log space consumed by PLOG"|awk -F : '{print $2}');llogGib=$(echo $llogTotal |awk '{print $1 / 1073741824}');plogGib=$(echo $plogTotal |awk '{print $1 / 1073741824}');allGibTotal=$(expr $llogTotal + $plogTotal|awk '{print $1 / 1073741824}');echo $ssd;echo " LLOG consumption: $llogGib";echo " PLOG consumption: $plogGib";echo " Total log consumption: $allGibTotal";done;sleep 30; done ;
Voorbeeldresultaat
Fri Feb 12 06:40:51 UTC 2021
529dd4dc--xxxx-xxxx-xxxx-xxxxxxxxxxxx
memCongestion:0 >> This value is higher than 0 ( ranger 0-250 )
slabCongestion:0
ssdCongestion:0
iopsCongestion:0
logCongestion:0
compCongestion:0
memCongestionLocalMax:0
slabCongestionLocalMax:0
ssdCongestionLocalMax:0
iopsCongestionLocalMax:0
logCongestionLocalMax:0
compCongestionLocalMax:0
529dd4dc-xxxx-xxxx-xxxx-xxxxxxxxxxxxxx
LLOG consumption: 0.270882
PLOG consumption: 0.632553
Total log consumption: 0.903435
Script 2
vsish -e ls /vmkModules/lsom/disks/ 2>/dev/null | while read d ; do echo -n ${d/\//} ; vsish -e get /vmkModules/lsom/disks/${d}WBQStats | grep "Number of elements in commit tables" ; done | grep -v ":0$"
Voorbeelduitvoer
(dit is alleen op cacheschijven; u kunt alle resultaten van capaciteitsschijven negeren)
52f395f3-03fd-f005-bf02-40287362403b/ Number of elements in commit tables:300891 526709f4-8790-8a91-2151-a491e2d3aec5/ Number of elements in commit tables:289371
Cause
De configuratiewaarden van de scrubber zijn gewijzigd in vSAN 6.7 P04 en vSAN 7.0 U1 P02-releases om objecten met een hogere frequentie te scrubben. Deze verandering resulteert in een persistente scrubbervoortgang van elk object, vaker dan voorheen. Als er inactieve objecten in het cluster zijn, accumuleert de scrubber doorvoertabelvermeldingen voor deze objecten bij LSOM. Uiteindelijk leidt de accumulatie tot overbelasting van het LSOM-geheugen.
Inactieve objecten in deze context verwijzen naar objecten die niet-geassocieerde, uitgeschakelde VM's, gerepliceerde objecten, enzovoort zijn.
Resolution
Als een host een groot aantal elementen in de doorvoertabellen heeft, zoals bepaald in script 2, wordt een van de twee volgende stappen aanbevolen om de overbelasting op te heffen.
- Zet de probleemhost in de onderhoudsmodus met Toegankelijkheid garanderen en start vervolgens de host opnieuw op.
- Ontkoppel de schijfgroepen van elke host en koppel ze opnieuw met behulp van Toegankelijkheid garanderen.
Oplossing:
Als de upgrade niet mogelijk is, implementeert u voorlopig nog steeds de volgende wijzigingen in de geavanceerde instellingen om dit probleem te voorkomen.
- Wijzig de scrubberfrequentie naar eenmaal per jaar:
esxcfg-advcfg -s 1 /VSAN/ObjectScrubsPerYear
- Timer voor scrubberpersistentie uitschakelen:
esxcfg-advcfg -s 0 /VSAN/ObjectScrubPersistMin