VxRail: Los nodos pueden experimentar una alta congestión de LSOM
Summary: Los nodos de VxRail delas versiones 4.7.511-526 y 7.0.130-132 pueden experimentar una alta congestión de la memoria que conduce a interrupciones de rendimiento y posibles interrupciones de vSAN. Existe una solución alternativa para desactivar los servicios que causan el problema; la actualización a la versión 4.7.530 o 7.0.200 resuelve este problema. Basado en el artículo de la base de conocimientos de VMware 82619 ...
Symptoms
Nota: La información proporcionada se basa en VMware KB 82619(enlace externo). Revise el artículo para ver si hay posibles actualizaciones más recientes.
Cuando se ejecutan las versiones 4.7.511-526 y 7.0.130-132 de VxRail, es posible que experimente los siguientes problemas:
- “Number of elements in the commit tables” es superior a 100 000 y no disminuye durante un período de horas.
- Pérdida de capacidad para ver archivos y carpetas en el almacén de datos de vSAN
- Degradación grave del rendimiento
- Uno o más nodos presentan una alta congestión de la memoria en la administración de objetos estructurados de registro local (LSOM) (consulte el comando 1).
- “Number of elements in the commit tables” es superior a 100 000 (consulte el comando 2).
- Congestión de memoria que se ha propagado a todos los nodos del clúster.
- Mensajes de registro en vmkernel.log:
LSOM: LSOM_ThrowCongestionVOB:3429: Throttled: Virtual SAN node "HOSTNAME" maximum Memory congestion reached.
- Mensajes de registro en vobd.log y vmkernel.log
LSOM_ThrowAsyncCongestionVOB:1669: LSOM Memory Congestion State: Exceeded. Congestion Threshold: 200 Current Congestion: 204.
Los siguientes comandos en secuencia se pueden utilizar para determinar si el host puede estar experimentando este problema.
Secuencia 1
while true; do echo "================================================"; date; for ssd in $(localcli vsan storage list |grep "Group UUID"|awk '{print $5}'|sort -u);do echo $ssd;vsish -e get /vmkModules/lsom/disks/$ssd/info|grep Congestion;done; for ssd in $(localcli vsan storage list |grep "Group UUID"|awk '{print $5}'|sort -u);do llogTotal=$(vsish -e get /vmkModules/lsom/disks/$ssd/info|grep "Log space consumed by LLOG"|awk -F : '{print $2}');plogTotal=$(vsish -e get /vmkModules/lsom/disks/$ssd/info|grep "Log space consumed by PLOG"|awk -F : '{print $2}');llogGib=$(echo $llogTotal |awk '{print $1 / 1073741824}');plogGib=$(echo $plogTotal |awk '{print $1 / 1073741824}');allGibTotal=$(expr $llogTotal + $plogTotal|awk '{print $1 / 1073741824}');echo $ssd;echo " LLOG consumption: $llogGib";echo " PLOG consumption: $plogGib";echo " Total log consumption: $allGibTotal";done;sleep 30; done ;
Resultado de muestra
Fri Feb 12 06:40:51 UTC 2021
529dd4dc--xxxx-xxxx-xxxx-xxxxxxxxxxxx
memCongestion:0 >> This value is higher than 0 ( ranger 0-250 )
slabCongestion:0
ssdCongestion:0
iopsCongestion:0
logCongestion:0
compCongestion:0
memCongestionLocalMax:0
slabCongestionLocalMax:0
ssdCongestionLocalMax:0
iopsCongestionLocalMax:0
logCongestionLocalMax:0
compCongestionLocalMax:0
529dd4dc-xxxx-xxxx-xxxx-xxxxxxxxxxxxxx
LLOG consumption: 0.270882
PLOG consumption: 0.632553
Total log consumption: 0.903435
Secuencia 2
vsish -e ls /vmkModules/lsom/disks/ 2>/dev/null | while read d ; do echo -n ${d/\//} ; vsish -e get /vmkModules/lsom/disks/${d}WBQStats | grep "Number of elements in commit tables" ; done | grep -v ":0$"
Ejemplo de salida
(esto es solo en discos de caché; puede ignorar cualquier resultado de discos de capacidad)
52f395f3-03fd-f005-bf02-40287362403b/ Number of elements in commit tables:300891 526709f4-8790-8a91-2151-a491e2d3aec5/ Number of elements in commit tables:289371
Cause
Los valores de configuración de depuración se modificaron en las versiones vSAN 6.7 P04 y vSAN 7.0 U1 P02 para limpiar objetos con una mayor frecuencia. Este cambio da como resultado un progreso persistente del depurador de cada objeto con más frecuencia que antes. Si hay objetos inactivos en el clúster, el limpiador acumula entradas de la tabla de confirmación para estos objetos en LSOM. Finalmente, la acumulación provoca una congestión de la memoria de LSOM.
En este contexto, los objetos inactivos hacen referencia a objetos no asociados, máquinas virtuales apagadas, objetos replicados, etc.
Resolution
Si un host tiene una gran cantidad de elementos en las tablas commit, como se determina en el script 2, se recomienda uno de los dos pasos siguientes para eliminar la congestión.
- Coloque el host con problemas en modo de mantenimiento con Ensure Accessibility y, a continuación, reinicie el host.
- Desmonte y vuelva a montar los grupos de discos de cada host mediante Ensure Accessibility.
Solución:
Si no puede actualizar, implemente los siguientes cambios avanzados en la configuración para evitar que se produzca este problema.
- Cambie la frecuencia de depuración a una vez al año:
esxcfg-advcfg -s 1 /VSAN/ObjectScrubsPerYear
- Desactive el temporizador de persistencia de la depuración:
esxcfg-advcfg -s 0 /VSAN/ObjectScrubPersistMin