Dell Technologies VxRail: Vysoké konflikty procesoru na hraničních uzlech NSX.
Summary: Dell Technologies VxRail: Vysoké konflikty procesoru na hraničních uzlech NSX. Je třeba zjistit, co způsobuje vysoké využití procesoru na hraničním uzlu nsx.
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
V uzlu ESXi dochází k vysokému konfliktu procesoru, konkrétně u okrajového uzlu NSX.
Pokud spustíte tento uzel Edge a používá funkci Equal cost Multipath (ECMP), dojde k vysokému konfliktu procesoru na dalším okraji uzlu spolu s vysokým síťovým provozem. Původní stav se opět vrátí do normálu.
Ze samotného okrajového uzlu dochází k běžnému zatížení a nebylo zjištěno, že není zahozen žádný konkrétní záznam sítě.
Pokud spustíte tento uzel Edge a používá funkci Equal cost Multipath (ECMP), dojde k vysokému konfliktu procesoru na dalším okraji uzlu spolu s vysokým síťovým provozem. Původní stav se opět vrátí do normálu.
Ze samotného okrajového uzlu dochází k běžnému zatížení a nebylo zjištěno, že není zahozen žádný konkrétní záznam sítě.
Cause
To je způsobeno vysokým využitím procesoru a vysokým síťovým provozem prostřednictvím určitého zařízení vnic Edge.
Porovnání využití procesoru:
Vadná hrana
Porovnání run% procesoru:
Vadná hrana
Dobrý okraj
Srovnání síťových portů pro RX a TX:
Srovnání balíčku za sekundu:
Vadná hrana
Dobrý okraj
Na hraničním uzlu dochází k vysokému síťovému provozu vůči konkrétnímu zařízení vnic. Na okrajových virtuálních počítačích, která funguje jako brána, je zachycena konkrétní spuštěná aplikace, která způsobuje vysoký provoz.
Níže jsou uvedeny poslední informace o kabelech.
Porovnání využití procesoru:
Vadná hrana
xxx 27 454.64 471.21 43.19 2307.95 7.32 13.72 334.52 2.67 0.00 0.00 0.00 Dobrý okraj
xxx 27 240.09 225.96 20.80 2507.98 6.72 8.39 443.93 1.71 0.00 0.00 0.00
Porovnání run% procesoru:
Vadná hrana
ID GID NAME NWLD %USED %RUN %SYS %WAIT %VMWAIT %RDY %IDLE %OVRLP %CSTP %MLMTD %SWPWT
16580792 16580792 xxx 27 454.64 471.21 43.19 2307.95 7.32 13.72 334.52 2.67 0.00 0.00 0.00
Dobrý okraj
ID GID NAME NWLD %USED %RUN %SYS %WAIT %VMWAIT %RDY %IDLE %OVRLP %CSTP %MLMTD %SWPWT
10908367 10908367 xxx 27 240.09 225.96 20.80 2507.98 6.72 8.39 443.93 1.71 0.00 0.00 0.00
Srovnání síťových portů pro RX a TX:
PORT-ID USED-BY TEAM-PNIC DNAME PKTTX/s MbTX/s PSZTX PKTRX/s MbRX/s PSZRX %DRPTX %DRPRX 50331714 2666974:xxx.eth2 vmnic2 DvsPortset-1 519615.172729.88 688.00 128623.96 694.32 707.00 0.00 0.00 50331715 2666974:xxx.eth1 vmnic3 DvsPortset-1 76622.01 523.06 894.00 230747.221126.70 640.00 0.00 0.00 50331716 2666974:xxx.eth0 vmnic6 DvsPortset-1 51422.12 168.87 430.00 312557.221691.50 709.00 0.00 0.00
PORT-ID USED-BY TEAM-PNIC DNAME PKTTX/s MbTX/s PSZTX PKTRX/s MbRX/s PSZRX %DRPTX %DRPRX 50331744 1752165:xxx.eth2 vmnic3 DvsPortset-1 42856.22 238.49 729.00 50329.21 262.45 683.00 0.00 0.00 50331745 1752165:xxx.eth1 vmnic7 DvsPortset-1 22069.93 91.24 541.00 20044.33 96.35 630.00 0.00 0.00 50331746 1752165:xxx.eth0 vmnic2 DvsPortset-1 27771.00 169.72 801.00 23548.13 144.95 806.00 0.00 0.00
Srovnání balíčku za sekundu:
Vadná hrana
"rxqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 30175, "mbps": 203.9, "errs": 0.0},
{"intridx": 1, "pps": 17175, "mbps": 61.1, "errs": 0.0},
{"intridx": 2, "pps": 15626, "mbps": 51.4, "errs": 0.0},
{"intridx": 3, "pps": 14596, "mbps": 57.4, "errs": 0.0} ]},
"txqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 121634, "mbps": 828.2, "errs": 0.0},
{"intridx": 1, "pps": 105483, "mbps": 708.5, "errs": 0.0},
{"intridx": 2, "pps": 137687, "mbps": 1087.9, "errs": 0.0},
{"intridx": 3, "pps": 116488, "mbps": 831.6, "errs": 0.0} ]},
Dobrý okraj
"rxqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 22388, "mbps": 115.1, "errs": 0.0},
{"intridx": 1, "pps": 54248, "mbps": 497.1, "errs": 0.0},
{"intridx": 2, "pps": 67004, "mbps": 650.2, "errs": 0.0},
{"intridx": 3, "pps": 22688, "mbps": 118.8, "errs": 0.0} ]},
"txqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 21222, "mbps": 125.0, "errs": 0.0},
{"intridx": 1, "pps": 46125, "mbps": 384.3, "errs": 0.0},
{"intridx": 2, "pps": 22771, "mbps": 131.7, "errs": 0.0},
{"intridx": 3, "pps": 29040, "mbps": 162.0, "errs": 0.0} ]},
Na hraničním uzlu dochází k vysokému síťovému provozu vůči konkrétnímu zařízení vnic. Na okrajových virtuálních počítačích, která funguje jako brána, je zachycena konkrétní spuštěná aplikace, která způsobuje vysoký provoz.
Níže jsou uvedeny poslední informace o kabelech.
Resolution
Řešení tohoto problému:
Příčinu problému zjistíte pomocí následujícího pracovního postupu odstraňování problémů.
1. Povolte technický režim okrajových uzlů, abyste mohli zaznamenat zatížení systému a spustit jej s kořenovým režimem.
2. Zaznamenejte informace esxtop o uzlu ESXi. Nejlepší je porovnat výsledek na uzlu ESXi, který používá normální okrajový uzel a uzel ESXi, který používá problematický okrajový uzel.
3. Spusťte statistiky Net pro statistické informace. Zkontrolujte statistiky paketů za sekundu na výstupu a porovnejte je s uzlem ESXi, který používá normální okrajový uzel.
4. Pomocí síťového softwaru Wireshark určete, která aplikace generovala největší provoz.
5. Chcete-li vygenerovat celkovou zprávu v chronologickém pořadí, vložte všechny informace o balíčku collect .pcap do umístění wireshark. Zjistěte port, ze kterého většina provozu přicházela, podle zdroje a cílové IP adresy.
6. V prostředí ECMP dochází k přenosu určitého zatížení. Je připnut na okrajový uzel pomocí hashování ECMP. V případě opětovného načtení/opětovného nasazení esG je přesunuta do jiného systému ESG. Poté systém ESG, do kterého je tento provoz přesunut, začne hláškovat vysoké využití procesoru.
Ve výchozím nastavení je provoz distribuován mezi všemi páry ECMP na základě interního algoritmu hashování, který používá dvě řazené objekty (srcIP+dstIP). To je proto, že veškerý provoz portu TCP/1556 není připnutý na jednu konkrétní hranu.
V našem případě je k tomuto okraji připnut velký provoz záloh mezi adresou SRC a DST, což vede k tomu, že systém ESXi poskytne více cyklů procesoru tomuto virtuálnímu počítači ESG pro daný provoz. Z tohoto důvodu dochází k vysokému využití procesoru na úrovni ESXi/vCenter, ale v hostované verzi operačního systému ESG je využití procesoru normální. Jedná se tedy také o očekávané chování.
- Pokud je zachycena konkrétní aplikace, která generuje vysoký síťový provoz na konkrétním portu, obraťte se na aplikační tým.
- Kontrola návrhu síťových komponent, aby nedocházelo k vytváření velkého množství provozu na určitých uzlech.
Příčinu problému zjistíte pomocí následujícího pracovního postupu odstraňování problémů.
1. Povolte technický režim okrajových uzlů, abyste mohli zaznamenat zatížení systému a spustit jej s kořenovým režimem.
/home/secureall/secureall/sem/WEB-INF/classes/GetSpockEdgePassword.sh edge-xx (edge-xx could be found on nsx manager GUI) logon console of edge node with admin->enable>debug engineeringmode enable->st en->
2. Zaznamenejte informace esxtop o uzlu ESXi. Nejlepší je porovnat výsledek na uzlu ESXi, který používá normální okrajový uzel a uzel ESXi, který používá problematický okrajový uzel.
Odpověď: "esxtop" – spustí se na migrovaného hostitele ESXi.
B. "esxtop" následovaný příkazem "n" – spusťte migrovaného hostitele ESXi.
C. "esxtop" na jádra procesoru pomocí aktuálního GID problematického virtuálního počítače. Získejte hodnotu GID, stiskněte klávesu E a zadejte číslo GID.
D. Zkontrolujte všechna data týkající se tohoto konkrétního virtuálního počítače Edge.
B. "esxtop" následovaný příkazem "n" – spusťte migrovaného hostitele ESXi.
C. "esxtop" na jádra procesoru pomocí aktuálního GID problematického virtuálního počítače. Získejte hodnotu GID, stiskněte klávesu E a zadejte číslo GID.
D. Zkontrolujte všechna data týkající se tohoto konkrétního virtuálního počítače Edge.
3. Spusťte statistiky Net pro statistické informace. Zkontrolujte statistiky paketů za sekundu na výstupu a porovnejte je s uzlem ESXi, který používá normální okrajový uzel.
'net-stats -A -t WwQqihVvh -i 5 -n 2' - run on the migrated ESXi host and got following high figure
"txqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 121634, "mbps": 828.2, "errs": 0.0},
{"intridx": 1, "pps": 105483, "mbps": 708.5, "errs": 0.0},
{"intridx": 2, "pps": 137687, "mbps": 1087.9, "errs": 0.0},
{"intridx": 3, "pps": 116488, "mbps": 831.6, "errs": 0.0} ]},
4. Pomocí síťového softwaru Wireshark určete, která aplikace generovala největší provoz.
A. V prostředí hostitele ESXi získejte podrobnosti o portu přepínače virtuálního počítače ESG pomocí příkazu "net-stats -l". Poznamenejte si switchport zařízení vnic dotčeného virtuálního počítače Edge. To vám umožní zjistit, jaký typ provozu toto zařízení vnic prolétá.
B. Jedno po jedné minutě proveďte zachycení paketu všech souvisejících switchportů a uložte jej do souboru .pcap. Změňte podle nastavení.
pktcap-uw --switchport --capture VnicTx,VnicRx -o /vmfs/volumes//.pcap
5. Chcete-li vygenerovat celkovou zprávu v chronologickém pořadí, vložte všechny informace o balíčku collect .pcap do umístění wireshark. Zjistěte port, ze kterého většina provozu přicházela, podle zdroje a cílové IP adresy.
6. V prostředí ECMP dochází k přenosu určitého zatížení. Je připnut na okrajový uzel pomocí hashování ECMP. V případě opětovného načtení/opětovného nasazení esG je přesunuta do jiného systému ESG. Poté systém ESG, do kterého je tento provoz přesunut, začne hláškovat vysoké využití procesoru.
Ve výchozím nastavení je provoz distribuován mezi všemi páry ECMP na základě interního algoritmu hashování, který používá dvě řazené objekty (srcIP+dstIP). To je proto, že veškerý provoz portu TCP/1556 není připnutý na jednu konkrétní hranu.
V našem případě je k tomuto okraji připnut velký provoz záloh mezi adresou SRC a DST, což vede k tomu, že systém ESXi poskytne více cyklů procesoru tomuto virtuálnímu počítači ESG pro daný provoz. Z tohoto důvodu dochází k vysokému využití procesoru na úrovni ESXi/vCenter, ale v hostované verzi operačního systému ESG je využití procesoru normální. Jedná se tedy také o očekávané chování.
Affected Products
VxRail Appliance Family, VxRail Appliance SeriesArticle Properties
Article Number: 000202066
Article Type: Solution
Last Modified: 16 May 2023
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.