Dell Technologies VxRail. Высокий уровень разнонаправления ЦП на периферийном узле NSX.

Summary: Dell Technologies VxRail. Высокий уровень разнонаправления ЦП на периферийном узле NSX. Необходимо определить причину высокой загрузки ЦП на периферийном узле nsx.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

В узле ESXi, особенно с периферийным узлом NSX, существует высокая проблема с ЦП.
При загрузке этого узла Edge и использовании многопутевого ввода-вывода Equal Cost Multipath (ECMP) на следующем периферийном узле наряду с высоким сетевым трафиком будет обнаружено высокопроизводительный запрос ЦП. Оригинал снова в обычный режим.
На периферийном узле имеется обычная нагрузка, и не обнаружено сброшение конкретной захватной сети.


Cause

Это вызвано высокой загрузкой ЦП и высоким сетевым трафиком через некоторые периферийные сетевые карты.

Сравнение использования ЦП:

Дефектная периферийная среда
 xxx    27  454.64  471.21   43.19 2307.95    7.32   13.72  334.52    2.67    0.00    0.00    0.00
Хорошие периферийные среды  
 xxx    27  240.09  225.96   20.80 2507.98    6.72    8.39  443.93    1.71    0.00    0.00    0.00


Сравнение производительности ЦП и производительности ЦП:

Дефектная периферийная среда
  ID      GID NAME             NWLD   %USED    %RUN    %SYS   %WAIT %VMWAIT    %RDY   %IDLE  %OVRLP   %CSTP  %MLMTD  %SWPWT
16580792 16580792 xxx            27  454.64  471.21   43.19 2307.95    7.32   13.72  334.52    2.67    0.00    0.00    0.00
   
Хорошие периферийные среды
  ID      GID NAME             NWLD   %USED    %RUN    %SYS   %WAIT %VMWAIT    %RDY   %IDLE  %OVRLP   %CSTP  %MLMTD  %SWPWT
10908367 10908367 xxx            27  240.09  225.96   20.80 2507.98    6.72    8.39  443.93    1.71    0.00    0.00    0.00


Сравнение сетевых портов для RX и TX:
PORT-ID USED-BY                         TEAM-PNIC DNAME              PKTTX/s  MbTX/s   PSZTX    PKTRX/s  MbRX/s   PSZRX %DRPTX %DRPRX
50331714 2666974:xxx.eth2               vmnic2 DvsPortset-1        519615.172729.88  688.00  128623.96  694.32  707.00   0.00   0.00
50331715 2666974:xxx.eth1               vmnic3 DvsPortset-1        76622.01  523.06  894.00  230747.221126.70  640.00   0.00   0.00
50331716 2666974:xxx.eth0               vmnic6 DvsPortset-1        51422.12  168.87  430.00  312557.221691.50  709.00   0.00   0.00
PORT-ID USED-BY                         TEAM-PNIC DNAME              PKTTX/s  MbTX/s   PSZTX    PKTRX/s  MbRX/s   PSZRX %DRPTX %DRPRX
50331744 1752165:xxx.eth2               vmnic3 DvsPortset-1        42856.22  238.49  729.00   50329.21  262.45  683.00   0.00   0.00
50331745 1752165:xxx.eth1               vmnic7 DvsPortset-1        22069.93   91.24  541.00   20044.33   96.35  630.00   0.00   0.00
50331746 1752165:xxx.eth0               vmnic2 DvsPortset-1        27771.00  169.72  801.00   23548.13  144.95  806.00   0.00   0.00

Сравнение пакетов в секунду:

Дефектная периферийная среда
    "rxqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 30175, "mbps": 203.9, "errs": 0.0},
    {"intridx": 1, "pps": 17175, "mbps": 61.1, "errs": 0.0},
    {"intridx": 2, "pps": 15626, "mbps": 51.4, "errs": 0.0},
    {"intridx": 3, "pps": 14596, "mbps": 57.4, "errs": 0.0} ]},
  "txqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 121634, "mbps": 828.2, "errs": 0.0},
    {"intridx": 1, "pps": 105483, "mbps": 708.5, "errs": 0.0},
    {"intridx": 2, "pps": 137687, "mbps": 1087.9, "errs": 0.0},
    {"intridx": 3, "pps": 116488, "mbps": 831.6, "errs": 0.0} ]},

Хорошие периферийные среды
    "rxqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 22388, "mbps": 115.1, "errs": 0.0},
    {"intridx": 1, "pps": 54248, "mbps": 497.1, "errs": 0.0},
    {"intridx": 2, "pps": 67004, "mbps": 650.2, "errs": 0.0},
    {"intridx": 3, "pps": 22688, "mbps": 118.8, "errs": 0.0} ]},
  "txqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 21222, "mbps": 125.0, "errs": 0.0},
    {"intridx": 1, "pps": 46125, "mbps": 384.3, "errs": 0.0},
    {"intridx": 2, "pps": 22771, "mbps": 131.7, "errs": 0.0},
    {"intridx": 3, "pps": 29040, "mbps": 162.0, "errs": 0.0} ]},


Существует высокий сетевой трафик для конкретной виртуальной карты на периферийных узлах. Конкретное приложение, которое выполняет работу, вызываемое высоким трафиком, фиксируется на периферийной виртуальной машине, которая выступает в качестве шлюза.
Ниже приведена последняя информация об проводной проводной сети.

WireShark_Output.png



 
 
 

Resolution

Для решения этой проблемы выполните следующие действия.
  • Если определенное приложение зацепино, генерируя большой сетевой трафик на определенном порте, обратитесь в группу приложений.
  • Рассмотрите архитектуру сетевых компонентов, чтобы избежать создания больших объемов трафика на определенных узлах.

Используйте следующий рабочий процесс поиска и устранения неисправностей, чтобы найти причину проблемы.

1. Включите инженерный режим узла Edge, чтобы фиксировать нагрузку системы и запускать ее сверху в режиме root.
/home/secureall/secureall/sem/WEB-INF/classes/GetSpockEdgePassword.sh edge-xx (edge-xx could be found on nsx manager GUI)
logon console of edge node with admin->enable>debug engineeringmode enable->st en-> 

2. Запишите информацию esxtop об узле ESXi. Лучше всего сравнить результат на узле ESXi, на котором работает обычный периферийный узел, и узле ESXi, на котором запущен проблемный узел edge.
 
О. «esxtop» — запуск на перенесенных хостах ESXi.
B. Выполните команду «esxtop» с параметром «n» на перенесенных хостах ESXi.
C. «esxtop» на данные ядра ЦП с использованием текущего GID проблемной виртуальной машины. Получите значение GID, нажмите «E» и введите номер GID.
D. Просмотрите все данные о конкретной ВМ Edge.

3. Для получения статистических данных запустите статистику по сети. Проверьте статистику пакетов в секунду на выходных данных и сравните ее с узлом ESXi, на котором работает обычный периферийный узел.
 
'net-stats -A -t WwQqihVvh -i 5 -n 2' - run on the migrated ESXi host and got following high figure
  "txqueue": { "count": 4, "details": [
    {"intridx": 0, "pps": 121634, "mbps": 828.2, "errs": 0.0},
    {"intridx": 1, "pps": 105483, "mbps": 708.5, "errs": 0.0},
    {"intridx": 2, "pps": 137687, "mbps": 1087.9, "errs": 0.0},
    {"intridx": 3, "pps": 116488, "mbps": 831.6, "errs": 0.0} ]},

4. Используйте сетевое ПО Wireshark, чтобы определить, какое приложение генерирование наиболее частого трафика.
 
A. В оболочке хоста ESXi получите сведения о switchport виртуальной машины ESG с помощью команды «net-stats -l». Обратите внимание на порт коммутатора виртуальной карты необходимой периферийной виртуальной машины. Это позволяет узнать тип трафика, который выполняется через эту виртуальную карту.
 
Б. Выполните сбор пакетов для всех связанных портов коммутатора по одной в течение одной минуты и сохраните его в файле .pcap. Измените соответствии с вашими настройками.
pktcap-uw --switchport  --capture VnicTx,VnicRx -o /vmfs/volumes//.pcap

5. Поместите всю информацию о пакете .pcap в wireshark, чтобы создать общий отчет в хронологическом порядке. Выявите порт, из-за которой большая часть трафика направлялась, за счет подключения его исходного и целевого IP-адреса.

6. В среде ECMP присутствует определенный трафик нагрузки. Он закреплен на узле Edge с помощью хэш-функции ECMP. Он перемещается в другую группу ESG в случае перезагрузки/повторного развертывания ESG. После этого ESG, в который перемещается этот трафик, начинает сообщает о высоком использовании ЦП.
По умолчанию трафик распределяется между всеми парами ECMP на основе внутреннего алгоритма хэширования, который использует два бита (srcIP+dstIP). Это необходимо, чтобы весь трафик порта TCP/1556 не был подключен к одному конкретному краю.
В нашем случае интенсивное трафик резервного копирования между IP-адресами src и dst прикрепляется к этому краю, что приводит к большему циклу ЦП для этого трафика ESXi. Именно поэтому мы видим высокую загрузку ЦП на уровне ESXi/vCenter, но в гостевой операционной системе ESG использование ЦП является нормальным. В целом это ожидаемое поведение.

Affected Products

VxRail Appliance Family, VxRail Appliance Series
Article Properties
Article Number: 000202066
Article Type: Solution
Last Modified: 16 May 2023
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.