Dell Technologies VxRail: Wysoka rywalizacja procesora na węźle brzegowym NSX.

Summary: Dell Technologies VxRail: Wysoka rywalizacja procesora na węźle brzegowym NSX. Należy ustalić, co jest przyczyną wysokiego wykorzystania procesora w węźle nsx edge.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

W węźle ESXi występuje duża rywalizacja procesora, w szczególności z węzłem brzegowym NSX.
W przypadku uruchomienia tego węzła Edge i korzystania z wielościeżkowego kosztu równego kosztu (ECMP), na następnym węźle brzegowym, wraz z dużym ruchem sieciowym, występuje duża rywalizacja procesora. Oryginał znowu powróci do normalnego stanu.
Z samego węzła brzegowego występuje normalne obciążenie i nie znaleziono żadnego przechwycenia sieci.


Cause

Jest to spowodowane dużym obciążeniem procesora, a także dużym ruchem w sieci za pośrednictwem niektórych sieci vnic brzegowych.

Porównanie użycia procesora:

Uszkodzona krawędź
 xxx    27  454.64  471.21   43.19 2307.95    7.32   13.72  334.52    2.67    0.00    0.00    0.00
Dobra krawędź  
 xxx    27  240.09  225.96   20.80 2507.98    6.72    8.39  443.93    1.71    0.00    0.00    0.00


Porównanie

cpu run%Uszkodzona krawędź
  ID      GID NAME             NWLD   %USED    %RUN    %SYS   %WAIT %VMWAIT    %RDY   %IDLE  %OVRLP   %CSTP  %MLMTD  %SWPWT
16580792 16580792 xxx            27  454.64  471.21   43.19 2307.95    7.32   13.72  334.52    2.67    0.00    0.00    0.00
   
Dobra krawędź
  ID      GID NAME             NWLD   %USED    %RUN    %SYS   %WAIT %VMWAIT    %RDY   %IDLE  %OVRLP   %CSTP  %MLMTD  %SWPWT
10908367 10908367 xxx            27  240.09  225.96   20.80 2507.98    6.72    8.39  443.93    1.71    0.00    0.00    0.00


Porównanie portów sieciowych dla RX i TX:
PORT-ID USED-BY                         TEAM-PNIC DNAME              PKTTX/s  MbTX/s   PSZTX    PKTRX/s  MbRX/s   PSZRX %DRPTX %DRPRX
50331714 2666974:xxx.eth2               vmnic2 DvsPortset-1        519615.172729.88  688.00  128623.96  694.32  707.00   0.00   0.00
50331715 2666974:xxx.eth1               vmnic3 DvsPortset-1        76622.01  523.06  894.00  230747.221126.70  640.00   0.00   0.00
50331716 2666974:xxx.eth0               vmnic6 DvsPortset-1        51422.12  168.87  430.00  312557.221691.50  709.00   0.00   0.00
PORT-ID USED-BY                         TEAM-PNIC DNAME              PKTTX/s  MbTX/s   PSZTX    PKTRX/s  MbRX/s   PSZRX %DRPTX %DRPRX
50331744 1752165:xxx.eth2               vmnic3 DvsPortset-1        42856.22  238.49  729.00   50329.21  262.45  683.00   0.00   0.00
50331745 1752165:xxx.eth1               vmnic7 DvsPortset-1        22069.93   91.24  541.00   20044.33   96.35  630.00   0.00   0.00
50331746 1752165:xxx.eth0               vmnic2 DvsPortset-1        27771.00  169.72  801.00   23548.13  144.95  806.00   0.00   0.00

Porównanie pakietów na sekundę:

Uszkodzona krawędź
    "rxqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 30175, "mbps": 203.9, "errs": 0.0},
    {"intridx": 1, "pps": 17175, "mbps": 61.1, "errs": 0.0},
    {"intridx": 2, "pps": 15626, "mbps": 51.4, "errs": 0.0},
    {"intridx": 3, "pps": 14596, "mbps": 57.4, "errs": 0.0} ]},
  "txqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 121634, "mbps": 828.2, "errs": 0.0},
    {"intridx": 1, "pps": 105483, "mbps": 708.5, "errs": 0.0},
    {"intridx": 2, "pps": 137687, "mbps": 1087.9, "errs": 0.0},
    {"intridx": 3, "pps": 116488, "mbps": 831.6, "errs": 0.0} ]},

Dobra krawędź
    "rxqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 22388, "mbps": 115.1, "errs": 0.0},
    {"intridx": 1, "pps": 54248, "mbps": 497.1, "errs": 0.0},
    {"intridx": 2, "pps": 67004, "mbps": 650.2, "errs": 0.0},
    {"intridx": 3, "pps": 22688, "mbps": 118.8, "errs": 0.0} ]},
  "txqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 21222, "mbps": 125.0, "errs": 0.0},
    {"intridx": 1, "pps": 46125, "mbps": 384.3, "errs": 0.0},
    {"intridx": 2, "pps": 22771, "mbps": 131.7, "errs": 0.0},
    {"intridx": 3, "pps": 29040, "mbps": 162.0, "errs": 0.0} ]},


W węźle brzegowym występuje duży ruch sieciowy względem określonej sieci vnic. Uruchomiona określona aplikacja powodująca duży ruch jest przechwytywane na maszynie wirtualnej brzegowej, która działa jako brama.
Poniżej znajdują się końcowe informacje na temat wireshark.

WireShark_Output.png



 
 
 

Resolution

Rozwiązanie problemu:
  • Jeśli określona aplikacja zostanie złapana, generując wysoki ruch sieciowy na określonym porcie, skontaktuj się z zespołem aplikacji.
  • Przejrzyj konstrukcję składników sieci, aby uniknąć generowania dużych ilości ruchu na określonych węzłach.

Aby znaleźć przyczynę problemu, należy skorzystać z poniższego procesu rozwiązywania problemów.

1. Włącz tryb inżynieryjny węzła brzegowego, aby przechwycić obciążenie systemu i uruchomić go na górze w trybie głównym.
/home/secureall/secureall/sem/WEB-INF/classes/GetSpockEdgePassword.sh edge-xx (edge-xx could be found on nsx manager GUI)
logon console of edge node with admin->enable>debug engineeringmode enable->st en-> 

2. Przechwyć informacje o węźle ESXi. Najlepszym rozwiązaniem jest porównanie wyników w węźle ESXi, który działa na normalnym węźle brzegowym, oraz w węźle ESXi, w którym uruchomiono problematyczny węzeł brzegowy.
 
A. "esxtop" — uruchom na zmigrowanym hoście ESXi.
B. "esxtop" po "n" — uruchom na zmigrowanym hoście ESXi.
C. "esxtop" na dane rdzenia procesora przy użyciu bieżącego GID problematycznej maszyny wirtualnej. Pobierz wartość GID, naciśnij klawisz "E" i wprowadź numer GID.
D. Przejrzyj wszystkie dane dotyczące tej konkretnej maszyny wirtualnej brzegowej.

3. Uruchom statystyki sieciowe, aby uzyskać informacje statystyczne. Sprawdź statystyki pakietów na sekundę na danych wyjściowych i porównaj je z węzłem ESXi, który działa w normalnym węźle brzegowym.
 
'net-stats -A -t WwQqihVvh -i 5 -n 2' - run on the migrated ESXi host and got following high figure
  "txqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 121634, "mbps": 828.2, "errs": 0.0},
    {"intridx": 1, "pps": 105483, "mbps": 708.5, "errs": 0.0},
    {"intridx": 2, "pps": 137687, "mbps": 1087.9, "errs": 0.0},
    {"intridx": 3, "pps": 116488, "mbps": 831.6, "errs": 0.0} ]},

4. Użyj oprogramowania sieciowego WireShark, aby określić, jaka aplikacja wygenerowała najwięcej ruchu.
 
A. Na powłoce hosta ESXi uzyskaj szczegółowe informacje o porcie przełącznika maszyny wirtualnej ESG przy użyciu polecenia "net-stats -l". Zwróć uwagę na port przełącznika vnic danej maszyny wirtualnej edge. Dzięki temu można określić, jaki rodzaj ruchu płynie przez tę vnic.
 
B. Przeprowadź przechwytywanie pakietów dla wszystkich powiązanych portów przełączników jeden po drugim przez minutę i zapisz go w pliku .pcap. Zmień zgodnie z konfiguracją.
pktcap-uw --switchport  --capture VnicTx,VnicRx -o /vmfs/volumes//.pcap

5. Umieść wszystkie dane pakietu .pcap w wireshark, aby wygenerować ogólny raport w kolejności chronologicznej. Wypracuj port, z którego pochodziła większość ruchu, poprzez określanie źródła i docelowego adresu IP.

6. Część ruchu obciążenia jest obecna w środowisku ECMP. Jest przypięty do węzła brzegowego przy użyciu skrótu ECMP. Jest on przenoszony do innego ESG w przypadku ponownego załadowania/ponownego uruchomienia ESG. Następnie ESG, do którego przenosi się ten ruch, zaczyna raportować wysokie użycie procesora.
Domyślnie ruch jest rozproszony między wszystkie pary ECMP w oparciu o jego wewnętrzny algorytm haszujący, który używa dwóch kropek (srcIP + dstIP). Oznacza to, że cały ruch TCP/1556 portu nie jest przypięty do jednej określonej krawędzi.
W naszym przypadku duży ruch kopii zapasowych między adresami IP SRC i dst jest przypięty do tej krawędzi, co powoduje, że ESXi zapewnia więcej cykli procesora tej maszynie wirtualnej ESG dla tego ruchu. Dlatego występuje wysokie wykorzystanie procesora na poziomie ESXi/vCenter, ale w systemie operacyjnym gościa ESG wykorzystanie procesora jest normalne. Ogólnie rzecz biorąc, jest to również oczekiwane zachowanie.

Affected Products

VxRail Appliance Family, VxRail Appliance Series
Article Properties
Article Number: 000202066
Article Type: Solution
Last Modified: 16 May 2023
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.