Dell Technologies VxRail: NSX 엣지 노드에서 높은 CPU 경합.

Summary: Dell Technologies VxRail: NSX 엣지 노드에서 높은 CPU 경합. nsx Edge 노드에서 높은 CPU 사용의 원인을 파악해야 합니다.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

ESXi 노드에서 특히 NSX 엣지 노드의 CPU 경합이 높습니다.
이 Edge 노드를 부팅하고 ECMP(Equal Cost Multipath)를 사용하는 경우 높은 네트워크 트래픽과 함께 다음 엣지 노드에서 CPU 높은 경합이 발견됩니다. 원본이 다시 정상으로 돌아갑니다.
엣지 노드 자체에서 정상적인 로드가 발생하며 특정 네트워크 캡처가 삭제되지 않았습니다.


Cause

이는 CPU 사용량이 많고 일부 엣지 vnic를 통한 네트워크 트래픽이 높기 때문에 발생합니다.

CPU 사용량 비교:

엣지 불량
 xxx    27  454.64  471.21   43.19 2307.95    7.32   13.72  334.52    2.67    0.00    0.00    0.00
좋은 엣지  
 xxx    27  240.09  225.96   20.80 2507.98    6.72    8.39  443.93    1.71    0.00    0.00    0.00


CPU 실행률 비교:

엣지 불량
  ID      GID NAME             NWLD   %USED    %RUN    %SYS   %WAIT %VMWAIT    %RDY   %IDLE  %OVRLP   %CSTP  %MLMTD  %SWPWT
16580792 16580792 xxx            27  454.64  471.21   43.19 2307.95    7.32   13.72  334.52    2.67    0.00    0.00    0.00
   
좋은 엣지
  ID      GID NAME             NWLD   %USED    %RUN    %SYS   %WAIT %VMWAIT    %RDY   %IDLE  %OVRLP   %CSTP  %MLMTD  %SWPWT
10908367 10908367 xxx            27  240.09  225.96   20.80 2507.98    6.72    8.39  443.93    1.71    0.00    0.00    0.00


RX 및 TX의 네트워크 포트 비교:
PORT-ID USED-BY                         TEAM-PNIC DNAME              PKTTX/s  MbTX/s   PSZTX    PKTRX/s  MbRX/s   PSZRX %DRPTX %DRPRX
50331714 2666974:xxx.eth2               vmnic2 DvsPortset-1        519615.172729.88  688.00  128623.96  694.32  707.00   0.00   0.00
50331715 2666974:xxx.eth1               vmnic3 DvsPortset-1        76622.01  523.06  894.00  230747.221126.70  640.00   0.00   0.00
50331716 2666974:xxx.eth0               vmnic6 DvsPortset-1        51422.12  168.87  430.00  312557.221691.50  709.00   0.00   0.00
PORT-ID USED-BY                         TEAM-PNIC DNAME              PKTTX/s  MbTX/s   PSZTX    PKTRX/s  MbRX/s   PSZRX %DRPTX %DRPRX
50331744 1752165:xxx.eth2               vmnic3 DvsPortset-1        42856.22  238.49  729.00   50329.21  262.45  683.00   0.00   0.00
50331745 1752165:xxx.eth1               vmnic7 DvsPortset-1        22069.93   91.24  541.00   20044.33   96.35  630.00   0.00   0.00
50331746 1752165:xxx.eth0               vmnic2 DvsPortset-1        27771.00  169.72  801.00   23548.13  144.95  806.00   0.00   0.00

초당 패키지 비교:

엣지 불량
    "rxqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 30175, "mbps": 203.9, "errs": 0.0},
    {"intridx": 1, "pps": 17175, "mbps": 61.1, "errs": 0.0},
    {"intridx": 2, "pps": 15626, "mbps": 51.4, "errs": 0.0},
    {"intridx": 3, "pps": 14596, "mbps": 57.4, "errs": 0.0} ]},
  "txqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 121634, "mbps": 828.2, "errs": 0.0},
    {"intridx": 1, "pps": 105483, "mbps": 708.5, "errs": 0.0},
    {"intridx": 2, "pps": 137687, "mbps": 1087.9, "errs": 0.0},
    {"intridx": 3, "pps": 116488, "mbps": 831.6, "errs": 0.0} ]},

좋은 엣지
    "rxqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 22388, "mbps": 115.1, "errs": 0.0},
    {"intridx": 1, "pps": 54248, "mbps": 497.1, "errs": 0.0},
    {"intridx": 2, "pps": 67004, "mbps": 650.2, "errs": 0.0},
    {"intridx": 3, "pps": 22688, "mbps": 118.8, "errs": 0.0} ]},
  "txqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 21222, "mbps": 125.0, "errs": 0.0},
    {"intridx": 1, "pps": 46125, "mbps": 384.3, "errs": 0.0},
    {"intridx": 2, "pps": 22771, "mbps": 131.7, "errs": 0.0},
    {"intridx": 3, "pps": 29040, "mbps": 162.0, "errs": 0.0} ]},


엣지 노드의 특정 vnic에 대한 네트워크 트래픽이 많습니다. 트래픽을 증가시키는 특정 애플리케이션이 게이트웨이 역할을 하는 엣지 vm에서 캡처됩니다.
다음은 최종 와이어 셔킹 정보입니다.

WireShark_Output.png



 
 
 

Resolution

이 문제를 해결하려면 다음 단계를 수행하십시오.
  • 특정 애플리케이션이 특정 포트에서 높은 네트워크 트래픽을 생성하는 데 걸린 경우 애플리케이션 팀에 문의하십시오.
  • 특정 노드에서 대량의 트래픽이 생성되는 것을 방지하기 위해 네트워크 구성 요소의 설계를 검토합니다.

다음 문제 해결 워크플로우를 사용하여 문제의 원인을 찾습니다.

1. 엣지 노드 엔지니어링 모드를 활성화하여 시스템 로드를 캡처하고 루트 모드로 상단을 실행합니다.
/home/secureall/secureall/sem/WEB-INF/classes/GetSpockEdgePassword.sh edge-xx (edge-xx could be found on nsx manager GUI)
logon console of edge node with admin->enable>debug engineeringmode enable->st en-> 

2. ESXi 노드에 대한 esxtop 정보를 캡처합니다. 정상 엣지 노드를 실행하는 ESXi 노드와 문제가 있는 엣지 노드를 실행하는 ESXi 노드의 결과를 비교하는 것이 좋습니다.
 
A. 'esxtop' - 마이그레이션된 ESXi 호스트에서 실행됩니다.
B. 'n'을 사용한 'esxtop' 다음 - 마이그레이션된 ESXi 호스트에서 실행됩니다.
C. 문제가 있는 VM의 현재 GID를 사용하는 CPU 코어 데이터당 'esxtop'입니다. GID 값을 얻고 'E'를 누르고 GID 번호를 입력합니다.
D. 이 특정 엣지 vm과 관련된 모든 데이터를 검토합니다.

3. 통계 정보에 대한 Net 통계를 실행합니다. 출력에서 초당 패킷 통계 통계를 확인하고 일반 엣지 노드를 실행하는 ESXi 노드와 비교합니다.
 
'net-stats -A -t WwQqihVvh -i 5 -n 2' - run on the migrated ESXi host and got following high figure
  "txqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 121634, "mbps": 828.2, "errs": 0.0},
    {"intridx": 1, "pps": 105483, "mbps": 708.5, "errs": 0.0},
    {"intridx": 2, "pps": 137687, "mbps": 1087.9, "errs": 0.0},
    {"intridx": 3, "pps": 116488, "mbps": 831.6, "errs": 0.0} ]},

4. Wireshark 네트워크 소프트웨어를 사용하여 트래픽을 가장 많이 생성하는 애플리케이션을 파악합니다.
 
A. ESXi 호스트 셸에서 "net-stats -l" 명령을 사용하여 ESG VM의 switchport 세부 정보를 가져옵니다. 해당 엣지 vm의 vnic 스위치 포트를 확인합니다. 이를 통해 이 vnic를 통해 어떤 유형의 트래픽이 흐르고 있는지 알 수 있습니다.
 
B. 모든 관련 스위치 포트에 대한 패킷 캡처를 1분 동안 하나씩 수행하고 .pcap 파일에 저장합니다. 설정에 따라 변경합니다.
pktcap-uw --switchport  --capture VnicTx,VnicRx -o /vmfs/volumes//.pcap

5. 모든 수집 .pcap 패키지 정보를 wireshark에 넣어 전체 보고서를 시간순으로 생성합니다. 소스 및 타겟 IP 주소를 파악하여 대부분의 트래픽이 발생하는 포트를 해결합니다.

6. ECMP 환경 아래에 일부 로드 트래픽이 있습니다. ECMP 해싱을 사용하여 엣지 노드에 고정됩니다. ESG를 다시 로드/재구축할 경우 다른 ESG로 이동합니다. 그 후 이 트래픽이 이동되는 ESG가 높은 CPU 사용량을 보고하기 시작합니다.
기본적으로 트래픽은 2개의 튜플(srcIP+dstIP)을 사용하는 내부 해싱 알고리즘을 기반으로 모든 ECMP 쌍 간에 분산됩니다. 따라서 모든 포트 TCP/1556 트래픽이 하나의 특정 엣지에 고정되지 않습니다.
이 예에서는 src와 dst IP 간의 백업 트래픽이 이 엣지에 고정되어 있어 ESXi가 해당 트래픽에 대해 이 ESG VM에 더 많은 CPU 주기를 제공합니다. 따라서 ESXi/vCenter 레벨에서 CPU 활용도가 높지만 ESG의 게스트 운영 체제 내에서는 CPU 사용률이 정상입니다. 전반적으로 예상된 동작이기도 합니다

Affected Products

VxRail Appliance Family, VxRail Appliance Series
Article Properties
Article Number: 000202066
Article Type: Solution
Last Modified: 16 May 2023
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.