Dell Technologies VxRail: Elevato conflitto della CPU sul nodo edge NSX.
Summary: Dell Technologies VxRail: Elevato conflitto della CPU sul nodo edge NSX. È necessario capire quale sia la causa dell'elevato utilizzo della CPU sul nodo edge nsx.
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
C'è un elevato conflitto della CPU sul nodo ESXi, in particolare con il nodo edge NSX.
Se si avvia questo nodo Edge e si utilizza Equal cost multipath (ECMP), l'elevato conflitto della CPU si trova sul nodo edge successivo insieme al traffico di rete elevato. L'originale torna di nuovo alla normalità.
Dal nodo edge stesso, c'è un carico normale e non viene rilevata alcuna acquisizione di rete specifica.
Se si avvia questo nodo Edge e si utilizza Equal cost multipath (ECMP), l'elevato conflitto della CPU si trova sul nodo edge successivo insieme al traffico di rete elevato. L'originale torna di nuovo alla normalità.
Dal nodo edge stesso, c'è un carico normale e non viene rilevata alcuna acquisizione di rete specifica.
Cause
Ciò è causato da un elevato utilizzo della CPU e anche da un elevato traffico di rete attraverso alcune vnic edge.
Confronto dell'utilizzo della CPU:
Edge danneggiato
Confronto percentuale di esecuzione CPU:
Edge danneggiato
Edge ottimale
Confronto delle porte di rete per RX e TX:
Confronto pacchetto al secondo:
Edge danneggiato
Edge ottimale
Il traffico di rete è elevato rispetto a una vNIC specifica sul nodo edge. Un'applicazione specifica in esecuzione che causa l'elevato traffico viene acquisita sulla VM edge che funge da gateway.
Di seguito sono riportate le informazioni finali su Wireshark.
Confronto dell'utilizzo della CPU:
Edge danneggiato
xxx 27 454.64 471.21 43.19 2307.95 7.32 13.72 334.52 2.67 0.00 0.00 0.00 Edge ottimale
xxx 27 240.09 225.96 20.80 2507.98 6.72 8.39 443.93 1.71 0.00 0.00 0.00
Confronto percentuale di esecuzione CPU:
Edge danneggiato
ID GID NAME NWLD %USED %RUN %SYS %WAIT %VMWAIT %RDY %IDLE %OVRLP %CSTP %MLMTD %SWPWT
16580792 16580792 xxx 27 454.64 471.21 43.19 2307.95 7.32 13.72 334.52 2.67 0.00 0.00 0.00
Edge ottimale
ID GID NAME NWLD %USED %RUN %SYS %WAIT %VMWAIT %RDY %IDLE %OVRLP %CSTP %MLMTD %SWPWT
10908367 10908367 xxx 27 240.09 225.96 20.80 2507.98 6.72 8.39 443.93 1.71 0.00 0.00 0.00
Confronto delle porte di rete per RX e TX:
PORT-ID USED-BY TEAM-PNIC DNAME PKTTX/s MbTX/s PSZTX PKTRX/s MbRX/s PSZRX %DRPTX %DRPRX 50331714 2666974:xxx.eth2 vmnic2 DvsPortset-1 519615.172729.88 688.00 128623.96 694.32 707.00 0.00 0.00 50331715 2666974:xxx.eth1 vmnic3 DvsPortset-1 76622.01 523.06 894.00 230747.221126.70 640.00 0.00 0.00 50331716 2666974:xxx.eth0 vmnic6 DvsPortset-1 51422.12 168.87 430.00 312557.221691.50 709.00 0.00 0.00
PORT-ID USED-BY TEAM-PNIC DNAME PKTTX/s MbTX/s PSZTX PKTRX/s MbRX/s PSZRX %DRPTX %DRPRX 50331744 1752165:xxx.eth2 vmnic3 DvsPortset-1 42856.22 238.49 729.00 50329.21 262.45 683.00 0.00 0.00 50331745 1752165:xxx.eth1 vmnic7 DvsPortset-1 22069.93 91.24 541.00 20044.33 96.35 630.00 0.00 0.00 50331746 1752165:xxx.eth0 vmnic2 DvsPortset-1 27771.00 169.72 801.00 23548.13 144.95 806.00 0.00 0.00
Confronto pacchetto al secondo:
Edge danneggiato
"rxqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 30175, "mbps": 203.9, "errs": 0.0},
{"intridx": 1, "pps": 17175, "mbps": 61.1, "errs": 0.0},
{"intridx": 2, "pps": 15626, "mbps": 51.4, "errs": 0.0},
{"intridx": 3, "pps": 14596, "mbps": 57.4, "errs": 0.0} ]},
"txqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 121634, "mbps": 828.2, "errs": 0.0},
{"intridx": 1, "pps": 105483, "mbps": 708.5, "errs": 0.0},
{"intridx": 2, "pps": 137687, "mbps": 1087.9, "errs": 0.0},
{"intridx": 3, "pps": 116488, "mbps": 831.6, "errs": 0.0} ]},
Edge ottimale
"rxqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 22388, "mbps": 115.1, "errs": 0.0},
{"intridx": 1, "pps": 54248, "mbps": 497.1, "errs": 0.0},
{"intridx": 2, "pps": 67004, "mbps": 650.2, "errs": 0.0},
{"intridx": 3, "pps": 22688, "mbps": 118.8, "errs": 0.0} ]},
"txqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 21222, "mbps": 125.0, "errs": 0.0},
{"intridx": 1, "pps": 46125, "mbps": 384.3, "errs": 0.0},
{"intridx": 2, "pps": 22771, "mbps": 131.7, "errs": 0.0},
{"intridx": 3, "pps": 29040, "mbps": 162.0, "errs": 0.0} ]},
Il traffico di rete è elevato rispetto a una vNIC specifica sul nodo edge. Un'applicazione specifica in esecuzione che causa l'elevato traffico viene acquisita sulla VM edge che funge da gateway.
Di seguito sono riportate le informazioni finali su Wireshark.
Resolution
Per risolvere il problema:
Utilizzare il seguente workflow di risoluzione dei problemi per individuare la causa del problema.
1. Abilitare la modalità di progettazione dei nodi edge per acquisire il carico di sistema ed eseguirlo in alto con la modalità root.
2. Acquisire le informazioni esxtop sul nodo ESXi. Si consiglia di confrontare il risultato sul nodo ESXi che esegue il nodo edge normale e il nodo ESXi che esegue il nodo edge problematico.
3. Eseguire Le statistiche di rete per informazioni statistiche. Controllare le statistiche dei pacchetti al secondo sull'output e confrontarle con il nodo ESXi che esegue il normale nodo edge.
4. Utilizzare il software di rete Wireshark per determinare quale applicazione genera la maggior parte del traffico.
5. Inserire tutte le informazioni del pacchetto di raccolta .pcap in Wireshark per generare il report generale in ordine cronologico. Individuare la porta da cui proviene la maggior parte del traffico tramite l'indirizzo IP di origine e di destinazione.
6. Nell'ambiente ECMP è presente del traffico di carico. È bloccato a un nodo edge utilizzando l'hash ECMP. Viene spostato in un altro ESG in caso di ricaricamento/reimplementazione di ESG. Successivamente, l'ESG su cui viene spostato il traffico inizia a segnalare un elevato utilizzo della CPU.
Per impostazione predefinita, il traffico viene distribuito tra tutte le coppie ECMP in base all'algoritmo hash interno che utilizza due tuple (srcIP+dstIP). In questo modo tutto il traffico TCP/1556 della porta non è bloccato a un edge specifico.
Nel nostro caso, un traffico intenso di backup tra gli IP src e dst è bloccato a questo edge, causando un maggior numero di cicli di CPU per questa VM ESG da parte di ESXi. Questo è il motivo per cui si riscontra un elevato utilizzo della CPU a livello di ESXi/vCenter, ma all'interno del sistema operativo guest di ESG, l'utilizzo della CPU è normale. Nel complesso questo è anche il comportamento previsto.
- Se un'applicazione specifica viene rilevata generando traffico di rete elevato su una porta specifica, contattare il team dell'applicazione.
- Esaminare la progettazione dei componenti di rete per evitare di generare grandi quantità di traffico su nodi specifici.
Utilizzare il seguente workflow di risoluzione dei problemi per individuare la causa del problema.
1. Abilitare la modalità di progettazione dei nodi edge per acquisire il carico di sistema ed eseguirlo in alto con la modalità root.
/home/secureall/secureall/sem/WEB-INF/classes/GetSpockEdgePassword.sh edge-xx (edge-xx could be found on nsx manager GUI) logon console of edge node with admin->enable>debug engineeringmode enable->st en->
2. Acquisire le informazioni esxtop sul nodo ESXi. Si consiglia di confrontare il risultato sul nodo ESXi che esegue il nodo edge normale e il nodo ESXi che esegue il nodo edge problematico.
R. 'esxtop': esecuzione su host ESXi migrato.
B. 'esxtop' seguente con 'n': eseguire sull'host ESXi migrato.
C. "esxtop" per i dati core della CPU utilizzando il GID corrente della VM problematica. Ottenere il valore GID, premere "E" e immettere il numero GID.
D. Esaminare tutti i dati relativi a questa specifica edge VM.
B. 'esxtop' seguente con 'n': eseguire sull'host ESXi migrato.
C. "esxtop" per i dati core della CPU utilizzando il GID corrente della VM problematica. Ottenere il valore GID, premere "E" e immettere il numero GID.
D. Esaminare tutti i dati relativi a questa specifica edge VM.
3. Eseguire Le statistiche di rete per informazioni statistiche. Controllare le statistiche dei pacchetti al secondo sull'output e confrontarle con il nodo ESXi che esegue il normale nodo edge.
'net-stats -A -t WwQqihVvh -i 5 -n 2' - run on the migrated ESXi host and got following high figure
"txqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 121634, "mbps": 828.2, "errs": 0.0},
{"intridx": 1, "pps": 105483, "mbps": 708.5, "errs": 0.0},
{"intridx": 2, "pps": 137687, "mbps": 1087.9, "errs": 0.0},
{"intridx": 3, "pps": 116488, "mbps": 831.6, "errs": 0.0} ]},
4. Utilizzare il software di rete Wireshark per determinare quale applicazione genera la maggior parte del traffico.
Un. Nella shell dell'host ESXi, ottenere i dettagli dello switchport della VM ESG utilizzando il comando "net-stats -l". Prendere nota dello switchport della vNIC della VM edge interessata. Ciò consente di sapere quale tipo di traffico attraversa questa vNIC.
B. Eseguire l'acquisizione del pacchetto per tutte le porte di switch correlate una per uno per un minuto e salvarlo in un file .pcap. Modificare i in base alla configurazione.
pktcap-uw --switchport --capture VnicTx,VnicRx -o /vmfs/volumes//.pcap
5. Inserire tutte le informazioni del pacchetto di raccolta .pcap in Wireshark per generare il report generale in ordine cronologico. Individuare la porta da cui proviene la maggior parte del traffico tramite l'indirizzo IP di origine e di destinazione.
6. Nell'ambiente ECMP è presente del traffico di carico. È bloccato a un nodo edge utilizzando l'hash ECMP. Viene spostato in un altro ESG in caso di ricaricamento/reimplementazione di ESG. Successivamente, l'ESG su cui viene spostato il traffico inizia a segnalare un elevato utilizzo della CPU.
Per impostazione predefinita, il traffico viene distribuito tra tutte le coppie ECMP in base all'algoritmo hash interno che utilizza due tuple (srcIP+dstIP). In questo modo tutto il traffico TCP/1556 della porta non è bloccato a un edge specifico.
Nel nostro caso, un traffico intenso di backup tra gli IP src e dst è bloccato a questo edge, causando un maggior numero di cicli di CPU per questa VM ESG da parte di ESXi. Questo è il motivo per cui si riscontra un elevato utilizzo della CPU a livello di ESXi/vCenter, ma all'interno del sistema operativo guest di ESG, l'utilizzo della CPU è normale. Nel complesso questo è anche il comportamento previsto.
Affected Products
VxRail Appliance Family, VxRail Appliance SeriesArticle Properties
Article Number: 000202066
Article Type: Solution
Last Modified: 16 May 2023
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.