Dell Technologies VxRail: Høy CPU-konflikt på NSX edge node.

Summary: Dell Technologies VxRail: Høy CPU-konflikt på NSX edge node. Må finne ut hva som forårsaker høy cpu-bruk på nsx edge-noden.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Det er høy CPU-konflikt på ESXi-noden, spesielt med NSX-kantnoden.
Hvis du starter opp denne Edge-noden, og den bruker equal cost multipath (ECMP), finner du den høye SPU-en på den neste kantnoden sammen med høy nettverkstrafikk. Originalen er tilbake til normal igjen.
Fra selve edge-noden er det normal belastning, og det blir ikke funnet noen spesifikk nettverksregistrering.


Cause

Dette skyldes høy cpu-bruk og høy nettverkstrafikk gjennom noen edge vnic.

CPU-brukssammenligning:

Dårlig kant
 xxx    27  454.64  471.21   43.19 2307.95    7.32   13.72  334.52    2.67    0.00    0.00    0.00
God kant  
 xxx    27  240.09  225.96   20.80 2507.98    6.72    8.39  443.93    1.71    0.00    0.00    0.00


CPU-kjøring % sammenligning:

Dårlig kant
  ID      GID NAME             NWLD   %USED    %RUN    %SYS   %WAIT %VMWAIT    %RDY   %IDLE  %OVRLP   %CSTP  %MLMTD  %SWPWT
16580792 16580792 xxx            27  454.64  471.21   43.19 2307.95    7.32   13.72  334.52    2.67    0.00    0.00    0.00
   
God kant
  ID      GID NAME             NWLD   %USED    %RUN    %SYS   %WAIT %VMWAIT    %RDY   %IDLE  %OVRLP   %CSTP  %MLMTD  %SWPWT
10908367 10908367 xxx            27  240.09  225.96   20.80 2507.98    6.72    8.39  443.93    1.71    0.00    0.00    0.00


Sammenligning av nettverksport for RX og TX:
PORT-ID USED-BY                         TEAM-PNIC DNAME              PKTTX/s  MbTX/s   PSZTX    PKTRX/s  MbRX/s   PSZRX %DRPTX %DRPRX
50331714 2666974:xxx.eth2               vmnic2 DvsPortset-1        519615.172729.88  688.00  128623.96  694.32  707.00   0.00   0.00
50331715 2666974:xxx.eth1               vmnic3 DvsPortset-1        76622.01  523.06  894.00  230747.221126.70  640.00   0.00   0.00
50331716 2666974:xxx.eth0               vmnic6 DvsPortset-1        51422.12  168.87  430.00  312557.221691.50  709.00   0.00   0.00
PORT-ID USED-BY                         TEAM-PNIC DNAME              PKTTX/s  MbTX/s   PSZTX    PKTRX/s  MbRX/s   PSZRX %DRPTX %DRPRX
50331744 1752165:xxx.eth2               vmnic3 DvsPortset-1        42856.22  238.49  729.00   50329.21  262.45  683.00   0.00   0.00
50331745 1752165:xxx.eth1               vmnic7 DvsPortset-1        22069.93   91.24  541.00   20044.33   96.35  630.00   0.00   0.00
50331746 1752165:xxx.eth0               vmnic2 DvsPortset-1        27771.00  169.72  801.00   23548.13  144.95  806.00   0.00   0.00

Pakke per sekund-sammenligning:

Dårlig kant
    "rxqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 30175, "mbps": 203.9, "errs": 0.0},
    {"intridx": 1, "pps": 17175, "mbps": 61.1, "errs": 0.0},
    {"intridx": 2, "pps": 15626, "mbps": 51.4, "errs": 0.0},
    {"intridx": 3, "pps": 14596, "mbps": 57.4, "errs": 0.0} ]},
  "txqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 121634, "mbps": 828.2, "errs": 0.0},
    {"intridx": 1, "pps": 105483, "mbps": 708.5, "errs": 0.0},
    {"intridx": 2, "pps": 137687, "mbps": 1087.9, "errs": 0.0},
    {"intridx": 3, "pps": 116488, "mbps": 831.6, "errs": 0.0} ]},

God kant
    "rxqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 22388, "mbps": 115.1, "errs": 0.0},
    {"intridx": 1, "pps": 54248, "mbps": 497.1, "errs": 0.0},
    {"intridx": 2, "pps": 67004, "mbps": 650.2, "errs": 0.0},
    {"intridx": 3, "pps": 22688, "mbps": 118.8, "errs": 0.0} ]},
  "txqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 21222, "mbps": 125.0, "errs": 0.0},
    {"intridx": 1, "pps": 46125, "mbps": 384.3, "errs": 0.0},
    {"intridx": 2, "pps": 22771, "mbps": 131.7, "errs": 0.0},
    {"intridx": 3, "pps": 29040, "mbps": 162.0, "errs": 0.0} ]},


Det er høy nettverkstrafikk mot en bestemt vnic på kantnoden. En bestemt applikasjon som kjører, forårsaker høy trafikk, registreres på Edge Vm som fungerer som gateway.
Nedenfor finner du den endelige wireshark-informasjonen.

WireShark_Output.png



 
 
 

Resolution

Slik løser du dette problemet:
  • Hvis en bestemt applikasjon blir fanget opp og genererer høy nettverkstrafikk på en bestemt port, kontakter du applikasjonsteamet.
  • Gjennomgå utformingen av nettverkskomponentene for å unngå å generere store mengder trafikk på bestemte noder.

Bruk følgende arbeidsflyt for feilsøking for å finne årsaken til problemet.

1. Aktiver den tekniske modusen for edge-noden for å registrere systembelastningen og kjøre øverst med rotmodus.
/home/secureall/secureall/sem/WEB-INF/classes/GetSpockEdgePassword.sh edge-xx (edge-xx could be found on nsx manager GUI)
logon console of edge node with admin->enable>debug engineeringmode enable->st en-> 

2. Registrer esxtop-informasjon om ESXi-noden. Det er best å sammenligne resultatet på ESXi-noden som kjører den normale kantnoden og ESXi-noden som kjører den problematiske kantnoden.
 
Svar: «esxtop» – kjør på migrert ESXi-vert.
B. "esxtop" etter "n" - kjør på migrert ESXi-vert.
C. "esxtop" per CPU-kjernedata ved hjelp av gjeldende GID for problematisk VM. Hent GID-verdien, trykk på E og skriv inn GID-nummeret.
D. Se gjennom alle data angående denne spesifikke Edge Vm-en.

3. Kjør netstatistikk for statistisk informasjon. Kontroller statistikkstatistikken for packet per sekund på utdataene, og sammenlign den med ESXi-noden som kjører normal kantnode.
 
'net-stats -A -t WwQqihVvh -i 5 -n 2' - run on the migrated ESXi host and got following high figure
  "txqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 121634, "mbps": 828.2, "errs": 0.0},
    {"intridx": 1, "pps": 105483, "mbps": 708.5, "errs": 0.0},
    {"intridx": 2, "pps": 137687, "mbps": 1087.9, "errs": 0.0},
    {"intridx": 3, "pps": 116488, "mbps": 831.6, "errs": 0.0} ]},

4. Bruk Wireshark-nettverksprogramvaren for å finne ut hvilken applikasjon som genererte mest trafikk.
 
A. På ESXi-vertsskallet får du svitsjportdetaljene for ESG VM ved hjelp av kommandoen «net-stats -l». Legg merke til svitsjporten til vnicen til det aktuelle Edge Vm. Dette gjør det mulig å vite hvilken type trafikk som strømmer gjennom denne vnic-en.
 
B. Utfør pakkeregistreringen for alle relaterte svitsjporter ett etter ett i ett minutt, og lagre den i en .pcap-fil. Endre i henhold til oppsettet.
pktcap-uw --switchport  --capture VnicTx,VnicRx -o /vmfs/volumes//.pcap

5. Legg all informasjonen om innhenting av PCAP-pakken i Wireshark for å generere den samlede rapporten i kronologisk rekkefølge. Arbeid ut porten der mesteparten av trafikken kom fra ved å hindre kilden og mål-IP-adressen.

6. Noe lasttrafikk finnes i ECMP-miljøet. Den er festet til en kantnode ved hjelp av ECMP-hashing. Den flyttes til en annen ESG hvis ESG lastes inn på nytt/ distribueres på nytt. Deretter begynner ESG som denne trafikken blir flyttet til, å rapportere høy CPU-bruk.
Som standard distribueres trafikken mellom alle ECMP-par basert på den interne hashing-algoritmen som bruker to tuples (srcIP+dstIP). Dette er slik at all port TCP/1556-trafikk ikke er festet til én bestemt kant.
I vårt tilfelle er en trafikk av sikkerhetskopier mellom en src og dst IP-er festet til denne kanten, noe som fører til at ESXi gir flere CPU-sykluser til denne ESG VM-en for denne trafikken. Derfor ser vi høy CPU-bruk fra ESXi-/vCenter-nivået, men i gjesteoperativsystemet i ESG er CPU-bruken normal. Så generelt er dette også forventet atferd.

Affected Products

VxRail Appliance Family, VxRail Appliance Series
Article Properties
Article Number: 000202066
Article Type: Solution
Last Modified: 16 May 2023
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.