Dell Technologies VxRail: Alta conflito de acesso da CPU no nó de borda do NSX.
Summary: Dell Technologies VxRail: Alta conflito de acesso da CPU no nó de borda do NSX. É necessário descobrir o que está causando o alto uso da CPU no nó de borda do nsx.
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
Há alto conflito de acesso da CPU no nó do ESXi, especificamente com o nó de borda do NSX.
Se você inicializar esse nó edge e ele estiver usando ECMP (Equal Cost Multipath, múltiplo de custo igual), o alto conflito de acesso da CPU será encontrado no próximo nó de borda, juntamente com o alto tráfego de rede. O original volta ao normal novamente.
A partir do nó periférico em si, há carga normal, e nenhuma captura de rede específica é encontrada para ser retirada.
Se você inicializar esse nó edge e ele estiver usando ECMP (Equal Cost Multipath, múltiplo de custo igual), o alto conflito de acesso da CPU será encontrado no próximo nó de borda, juntamente com o alto tráfego de rede. O original volta ao normal novamente.
A partir do nó periférico em si, há carga normal, e nenhuma captura de rede específica é encontrada para ser retirada.
Cause
Isso é causado pelo alto uso da CPU e também pelo alto tráfego de rede por meio de alguma vnic de borda.
Comparação de uso da CPU:
Borda ruim
Comparação de% de execução da CPU:
Borda ruim
Boa vantagem
Comparação de portas de rede para RX e TX:
Comparação de pacotes por segundo:
Borda ruim
Boa vantagem
Há alto tráfego de rede em relação a uma vnic específica no nó periférico. Um aplicativo específico em execução que causa alto tráfego é capturado na VM de borda que atua como gateway.
Veja abaixo as informações finais do wireshark.
Comparação de uso da CPU:
Borda ruim
xxx 27 454.64 471.21 43.19 2307.95 7.32 13.72 334.52 2.67 0.00 0.00 0.00 Boa vantagem
xxx 27 240.09 225.96 20.80 2507.98 6.72 8.39 443.93 1.71 0.00 0.00 0.00
Comparação de% de execução da CPU:
Borda ruim
ID GID NAME NWLD %USED %RUN %SYS %WAIT %VMWAIT %RDY %IDLE %OVRLP %CSTP %MLMTD %SWPWT
16580792 16580792 xxx 27 454.64 471.21 43.19 2307.95 7.32 13.72 334.52 2.67 0.00 0.00 0.00
Boa vantagem
ID GID NAME NWLD %USED %RUN %SYS %WAIT %VMWAIT %RDY %IDLE %OVRLP %CSTP %MLMTD %SWPWT
10908367 10908367 xxx 27 240.09 225.96 20.80 2507.98 6.72 8.39 443.93 1.71 0.00 0.00 0.00
Comparação de portas de rede para RX e TX:
PORT-ID USED-BY TEAM-PNIC DNAME PKTTX/s MbTX/s PSZTX PKTRX/s MbRX/s PSZRX %DRPTX %DRPRX 50331714 2666974:xxx.eth2 vmnic2 DvsPortset-1 519615.172729.88 688.00 128623.96 694.32 707.00 0.00 0.00 50331715 2666974:xxx.eth1 vmnic3 DvsPortset-1 76622.01 523.06 894.00 230747.221126.70 640.00 0.00 0.00 50331716 2666974:xxx.eth0 vmnic6 DvsPortset-1 51422.12 168.87 430.00 312557.221691.50 709.00 0.00 0.00
PORT-ID USED-BY TEAM-PNIC DNAME PKTTX/s MbTX/s PSZTX PKTRX/s MbRX/s PSZRX %DRPTX %DRPRX 50331744 1752165:xxx.eth2 vmnic3 DvsPortset-1 42856.22 238.49 729.00 50329.21 262.45 683.00 0.00 0.00 50331745 1752165:xxx.eth1 vmnic7 DvsPortset-1 22069.93 91.24 541.00 20044.33 96.35 630.00 0.00 0.00 50331746 1752165:xxx.eth0 vmnic2 DvsPortset-1 27771.00 169.72 801.00 23548.13 144.95 806.00 0.00 0.00
Comparação de pacotes por segundo:
Borda ruim
"rxqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 30175, "mbps": 203.9, "errs": 0.0},
{"intridx": 1, "pps": 17175, "mbps": 61.1, "errs": 0.0},
{"intridx": 2, "pps": 15626, "mbps": 51.4, "errs": 0.0},
{"intridx": 3, "pps": 14596, "mbps": 57.4, "errs": 0.0} ]},
"txqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 121634, "mbps": 828.2, "errs": 0.0},
{"intridx": 1, "pps": 105483, "mbps": 708.5, "errs": 0.0},
{"intridx": 2, "pps": 137687, "mbps": 1087.9, "errs": 0.0},
{"intridx": 3, "pps": 116488, "mbps": 831.6, "errs": 0.0} ]},
Boa vantagem
"rxqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 22388, "mbps": 115.1, "errs": 0.0},
{"intridx": 1, "pps": 54248, "mbps": 497.1, "errs": 0.0},
{"intridx": 2, "pps": 67004, "mbps": 650.2, "errs": 0.0},
{"intridx": 3, "pps": 22688, "mbps": 118.8, "errs": 0.0} ]},
"txqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 21222, "mbps": 125.0, "errs": 0.0},
{"intridx": 1, "pps": 46125, "mbps": 384.3, "errs": 0.0},
{"intridx": 2, "pps": 22771, "mbps": 131.7, "errs": 0.0},
{"intridx": 3, "pps": 29040, "mbps": 162.0, "errs": 0.0} ]},
Há alto tráfego de rede em relação a uma vnic específica no nó periférico. Um aplicativo específico em execução que causa alto tráfego é capturado na VM de borda que atua como gateway.
Veja abaixo as informações finais do wireshark.
Resolution
Para resolver esse problema:
Use o workflow de solução de problemas a seguir para localizar a causa do problema.
1. Habilite o modo de engenharia de nó periférico para capturar a carga do sistema e executar na parte superior com o modo root.
2. Capture as informações do esxtop sobre o nó do ESXi. É melhor comparar o resultado no nó do ESXi que está executando o nó de borda normal e no nó do ESXi que está executando o nó periférico problemático.
3. Execute net stats para obter informações estatísticas. Verifique as estatísticas de Packet per Second no resultado e compare-o com o nó do ESXi que está executando o nó de borda normal.
4. Use o software de rede Wireshark para determinar qual aplicativo estava gerando mais tráfego.
5. Coloque todas as informações do pacote .pcap de coleta no wireshark para gerar o relatório geral em ordem cronológica. Trabalhe na porta de onde a maior parte do tráfego estava vindo, avaliando seu endereço IP de origem e destino.
6. Algum tráfego de carga está presente no ambiente ECMP. Ele é fixado a um nó de borda usando o hash ECMP. Ele é movido para outro ESG em caso de recarregamento/reimplementação do ESG. Depois disso, o ESG para o qual esse tráfego é movido começa a relatar alto uso da CPU.
Por padrão, o tráfego é distribuído entre todos os pares ECMP com base em seu algoritmo de hash interno, que usa dois tuples (srcIP+dstIP). Isso é para que todo o tráfego TCP/1556 da porta não esteja fixado a uma borda específica.
Em nosso caso, um tráfego pesado de backups entre um src e os IPs dst é fixado nessa borda, fazendo com que o ESXi forneça mais ciclos de CPU para essa VM do ESG para esse tráfego. É por isso que estamos vendo alta utilização da CPU a partir do nível do ESXi/vCenter, mas dentro do sistema operacional convidado do ESG, a utilização da CPU é normal. Em geral, esse também é o comportamento esperado.
- Se um aplicativo específico for detectado gerando alto tráfego de rede em uma porta específica, entre em contato com a equipe de aplicativos.
- Analise o projeto dos componentes de rede para evitar a geração de grandes volumes de tráfego em nós específicos.
Use o workflow de solução de problemas a seguir para localizar a causa do problema.
1. Habilite o modo de engenharia de nó periférico para capturar a carga do sistema e executar na parte superior com o modo root.
/home/secureall/secureall/sem/WEB-INF/classes/GetSpockEdgePassword.sh edge-xx (edge-xx could be found on nsx manager GUI) logon console of edge node with admin->enable>debug engineeringmode enable->st en->
2. Capture as informações do esxtop sobre o nó do ESXi. É melhor comparar o resultado no nó do ESXi que está executando o nó de borda normal e no nó do ESXi que está executando o nó periférico problemático.
R. "esxtop" - executado no host do ESXi migrado.
B. "esxtop" seguindo com "n" - executado no host do ESXi migrado.
C. "esxtop" por dados principais da CPU usando o GID atual da VM problemática. Obtenha o valor do GID, pressione "E" e insira o número do GID.
D. Analise todos os dados relacionados a essa VM de borda específica.
B. "esxtop" seguindo com "n" - executado no host do ESXi migrado.
C. "esxtop" por dados principais da CPU usando o GID atual da VM problemática. Obtenha o valor do GID, pressione "E" e insira o número do GID.
D. Analise todos os dados relacionados a essa VM de borda específica.
3. Execute net stats para obter informações estatísticas. Verifique as estatísticas de Packet per Second no resultado e compare-o com o nó do ESXi que está executando o nó de borda normal.
'net-stats -A -t WwQqihVvh -i 5 -n 2' - run on the migrated ESXi host and got following high figure
"txqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 121634, "mbps": 828.2, "errs": 0.0},
{"intridx": 1, "pps": 105483, "mbps": 708.5, "errs": 0.0},
{"intridx": 2, "pps": 137687, "mbps": 1087.9, "errs": 0.0},
{"intridx": 3, "pps": 116488, "mbps": 831.6, "errs": 0.0} ]},
4. Use o software de rede Wireshark para determinar qual aplicativo estava gerando mais tráfego.
Um. No shell do host do ESXi, obtenha os detalhes de switchport da VM do ESG usando o comando "net-stats -l ". Observe a porta de switch da vnic da VM de borda em questão. Isso permite que você saiba que tipo de tráfego está fluindo por essa vnic.
B. Execute a captura de pacotes para todos os switchesports relacionados, um por um, por um minuto e salve-o em um arquivo.pcap. Altere de acordo com sua configuração.
pktcap-uw --switchport --capture VnicTx,VnicRx -o /vmfs/volumes//.pcap
5. Coloque todas as informações do pacote .pcap de coleta no wireshark para gerar o relatório geral em ordem cronológica. Trabalhe na porta de onde a maior parte do tráfego estava vindo, avaliando seu endereço IP de origem e destino.
6. Algum tráfego de carga está presente no ambiente ECMP. Ele é fixado a um nó de borda usando o hash ECMP. Ele é movido para outro ESG em caso de recarregamento/reimplementação do ESG. Depois disso, o ESG para o qual esse tráfego é movido começa a relatar alto uso da CPU.
Por padrão, o tráfego é distribuído entre todos os pares ECMP com base em seu algoritmo de hash interno, que usa dois tuples (srcIP+dstIP). Isso é para que todo o tráfego TCP/1556 da porta não esteja fixado a uma borda específica.
Em nosso caso, um tráfego pesado de backups entre um src e os IPs dst é fixado nessa borda, fazendo com que o ESXi forneça mais ciclos de CPU para essa VM do ESG para esse tráfego. É por isso que estamos vendo alta utilização da CPU a partir do nível do ESXi/vCenter, mas dentro do sistema operacional convidado do ESG, a utilização da CPU é normal. Em geral, esse também é o comportamento esperado.
Affected Products
VxRail Appliance Family, VxRail Appliance SeriesArticle Properties
Article Number: 000202066
Article Type: Solution
Last Modified: 16 May 2023
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.