Dell Technologies VxRail. Высокий уровень разнонаправления ЦП на периферийном узле NSX.
Summary: Dell Technologies VxRail. Высокий уровень разнонаправления ЦП на периферийном узле NSX. Необходимо определить причину высокой загрузки ЦП на периферийном узле nsx.
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
В узле ESXi, особенно с периферийным узлом NSX, существует высокая проблема с ЦП.
При загрузке этого узла Edge и использовании многопутевого ввода-вывода Equal Cost Multipath (ECMP) на следующем периферийном узле наряду с высоким сетевым трафиком будет обнаружено высокопроизводительный запрос ЦП. Оригинал снова в обычный режим.
На периферийном узле имеется обычная нагрузка, и не обнаружено сброшение конкретной захватной сети.
При загрузке этого узла Edge и использовании многопутевого ввода-вывода Equal Cost Multipath (ECMP) на следующем периферийном узле наряду с высоким сетевым трафиком будет обнаружено высокопроизводительный запрос ЦП. Оригинал снова в обычный режим.
На периферийном узле имеется обычная нагрузка, и не обнаружено сброшение конкретной захватной сети.
Cause
Это вызвано высокой загрузкой ЦП и высоким сетевым трафиком через некоторые периферийные сетевые карты.
Сравнение использования ЦП:
Дефектная периферийная среда
Сравнение производительности ЦП и производительности ЦП:
Дефектная периферийная среда
Хорошие периферийные среды
Сравнение сетевых портов для RX и TX:
Сравнение пакетов в секунду:
Дефектная периферийная среда
Хорошие периферийные среды
Существует высокий сетевой трафик для конкретной виртуальной карты на периферийных узлах. Конкретное приложение, которое выполняет работу, вызываемое высоким трафиком, фиксируется на периферийной виртуальной машине, которая выступает в качестве шлюза.
Ниже приведена последняя информация об проводной проводной сети.
Сравнение использования ЦП:
Дефектная периферийная среда
xxx 27 454.64 471.21 43.19 2307.95 7.32 13.72 334.52 2.67 0.00 0.00 0.00 Хорошие периферийные среды
xxx 27 240.09 225.96 20.80 2507.98 6.72 8.39 443.93 1.71 0.00 0.00 0.00
Сравнение производительности ЦП и производительности ЦП:
Дефектная периферийная среда
ID GID NAME NWLD %USED %RUN %SYS %WAIT %VMWAIT %RDY %IDLE %OVRLP %CSTP %MLMTD %SWPWT
16580792 16580792 xxx 27 454.64 471.21 43.19 2307.95 7.32 13.72 334.52 2.67 0.00 0.00 0.00
Хорошие периферийные среды
ID GID NAME NWLD %USED %RUN %SYS %WAIT %VMWAIT %RDY %IDLE %OVRLP %CSTP %MLMTD %SWPWT
10908367 10908367 xxx 27 240.09 225.96 20.80 2507.98 6.72 8.39 443.93 1.71 0.00 0.00 0.00
Сравнение сетевых портов для RX и TX:
PORT-ID USED-BY TEAM-PNIC DNAME PKTTX/s MbTX/s PSZTX PKTRX/s MbRX/s PSZRX %DRPTX %DRPRX 50331714 2666974:xxx.eth2 vmnic2 DvsPortset-1 519615.172729.88 688.00 128623.96 694.32 707.00 0.00 0.00 50331715 2666974:xxx.eth1 vmnic3 DvsPortset-1 76622.01 523.06 894.00 230747.221126.70 640.00 0.00 0.00 50331716 2666974:xxx.eth0 vmnic6 DvsPortset-1 51422.12 168.87 430.00 312557.221691.50 709.00 0.00 0.00
PORT-ID USED-BY TEAM-PNIC DNAME PKTTX/s MbTX/s PSZTX PKTRX/s MbRX/s PSZRX %DRPTX %DRPRX 50331744 1752165:xxx.eth2 vmnic3 DvsPortset-1 42856.22 238.49 729.00 50329.21 262.45 683.00 0.00 0.00 50331745 1752165:xxx.eth1 vmnic7 DvsPortset-1 22069.93 91.24 541.00 20044.33 96.35 630.00 0.00 0.00 50331746 1752165:xxx.eth0 vmnic2 DvsPortset-1 27771.00 169.72 801.00 23548.13 144.95 806.00 0.00 0.00
Сравнение пакетов в секунду:
Дефектная периферийная среда
"rxqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 30175, "mbps": 203.9, "errs": 0.0},
{"intridx": 1, "pps": 17175, "mbps": 61.1, "errs": 0.0},
{"intridx": 2, "pps": 15626, "mbps": 51.4, "errs": 0.0},
{"intridx": 3, "pps": 14596, "mbps": 57.4, "errs": 0.0} ]},
"txqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 121634, "mbps": 828.2, "errs": 0.0},
{"intridx": 1, "pps": 105483, "mbps": 708.5, "errs": 0.0},
{"intridx": 2, "pps": 137687, "mbps": 1087.9, "errs": 0.0},
{"intridx": 3, "pps": 116488, "mbps": 831.6, "errs": 0.0} ]},
Хорошие периферийные среды
"rxqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 22388, "mbps": 115.1, "errs": 0.0},
{"intridx": 1, "pps": 54248, "mbps": 497.1, "errs": 0.0},
{"intridx": 2, "pps": 67004, "mbps": 650.2, "errs": 0.0},
{"intridx": 3, "pps": 22688, "mbps": 118.8, "errs": 0.0} ]},
"txqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 21222, "mbps": 125.0, "errs": 0.0},
{"intridx": 1, "pps": 46125, "mbps": 384.3, "errs": 0.0},
{"intridx": 2, "pps": 22771, "mbps": 131.7, "errs": 0.0},
{"intridx": 3, "pps": 29040, "mbps": 162.0, "errs": 0.0} ]},
Существует высокий сетевой трафик для конкретной виртуальной карты на периферийных узлах. Конкретное приложение, которое выполняет работу, вызываемое высоким трафиком, фиксируется на периферийной виртуальной машине, которая выступает в качестве шлюза.
Ниже приведена последняя информация об проводной проводной сети.
Resolution
Для решения этой проблемы выполните следующие действия.
Используйте следующий рабочий процесс поиска и устранения неисправностей, чтобы найти причину проблемы.
1. Включите инженерный режим узла Edge, чтобы фиксировать нагрузку системы и запускать ее сверху в режиме root.
2. Запишите информацию esxtop об узле ESXi. Лучше всего сравнить результат на узле ESXi, на котором работает обычный периферийный узел, и узле ESXi, на котором запущен проблемный узел edge.
3. Для получения статистических данных запустите статистику по сети. Проверьте статистику пакетов в секунду на выходных данных и сравните ее с узлом ESXi, на котором работает обычный периферийный узел.
4. Используйте сетевое ПО Wireshark, чтобы определить, какое приложение генерирование наиболее частого трафика.
5. Поместите всю информацию о пакете .pcap в wireshark, чтобы создать общий отчет в хронологическом порядке. Выявите порт, из-за которой большая часть трафика направлялась, за счет подключения его исходного и целевого IP-адреса.
6. В среде ECMP присутствует определенный трафик нагрузки. Он закреплен на узле Edge с помощью хэш-функции ECMP. Он перемещается в другую группу ESG в случае перезагрузки/повторного развертывания ESG. После этого ESG, в который перемещается этот трафик, начинает сообщает о высоком использовании ЦП.
По умолчанию трафик распределяется между всеми парами ECMP на основе внутреннего алгоритма хэширования, который использует два бита (srcIP+dstIP). Это необходимо, чтобы весь трафик порта TCP/1556 не был подключен к одному конкретному краю.
В нашем случае интенсивное трафик резервного копирования между IP-адресами src и dst прикрепляется к этому краю, что приводит к большему циклу ЦП для этого трафика ESXi. Именно поэтому мы видим высокую загрузку ЦП на уровне ESXi/vCenter, но в гостевой операционной системе ESG использование ЦП является нормальным. В целом это ожидаемое поведение.
- Если определенное приложение зацепино, генерируя большой сетевой трафик на определенном порте, обратитесь в группу приложений.
- Рассмотрите архитектуру сетевых компонентов, чтобы избежать создания больших объемов трафика на определенных узлах.
Используйте следующий рабочий процесс поиска и устранения неисправностей, чтобы найти причину проблемы.
1. Включите инженерный режим узла Edge, чтобы фиксировать нагрузку системы и запускать ее сверху в режиме root.
/home/secureall/secureall/sem/WEB-INF/classes/GetSpockEdgePassword.sh edge-xx (edge-xx could be found on nsx manager GUI) logon console of edge node with admin->enable>debug engineeringmode enable->st en->
2. Запишите информацию esxtop об узле ESXi. Лучше всего сравнить результат на узле ESXi, на котором работает обычный периферийный узел, и узле ESXi, на котором запущен проблемный узел edge.
О. «esxtop» — запуск на перенесенных хостах ESXi.
B. Выполните команду «esxtop» с параметром «n» на перенесенных хостах ESXi.
C. «esxtop» на данные ядра ЦП с использованием текущего GID проблемной виртуальной машины. Получите значение GID, нажмите «E» и введите номер GID.
D. Просмотрите все данные о конкретной ВМ Edge.
B. Выполните команду «esxtop» с параметром «n» на перенесенных хостах ESXi.
C. «esxtop» на данные ядра ЦП с использованием текущего GID проблемной виртуальной машины. Получите значение GID, нажмите «E» и введите номер GID.
D. Просмотрите все данные о конкретной ВМ Edge.
3. Для получения статистических данных запустите статистику по сети. Проверьте статистику пакетов в секунду на выходных данных и сравните ее с узлом ESXi, на котором работает обычный периферийный узел.
'net-stats -A -t WwQqihVvh -i 5 -n 2' - run on the migrated ESXi host and got following high figure
"txqueue": { "count": 4, "details": [
{"intridx": 0, "pps": 121634, "mbps": 828.2, "errs": 0.0},
{"intridx": 1, "pps": 105483, "mbps": 708.5, "errs": 0.0},
{"intridx": 2, "pps": 137687, "mbps": 1087.9, "errs": 0.0},
{"intridx": 3, "pps": 116488, "mbps": 831.6, "errs": 0.0} ]},
4. Используйте сетевое ПО Wireshark, чтобы определить, какое приложение генерирование наиболее частого трафика.
A. В оболочке хоста ESXi получите сведения о switchport виртуальной машины ESG с помощью команды «net-stats -l». Обратите внимание на порт коммутатора виртуальной карты необходимой периферийной виртуальной машины. Это позволяет узнать тип трафика, который выполняется через эту виртуальную карту.
Б. Выполните сбор пакетов для всех связанных портов коммутатора по одной в течение одной минуты и сохраните его в файле .pcap. Измените соответствии с вашими настройками.
pktcap-uw --switchport --capture VnicTx,VnicRx -o /vmfs/volumes//.pcap
5. Поместите всю информацию о пакете .pcap в wireshark, чтобы создать общий отчет в хронологическом порядке. Выявите порт, из-за которой большая часть трафика направлялась, за счет подключения его исходного и целевого IP-адреса.
6. В среде ECMP присутствует определенный трафик нагрузки. Он закреплен на узле Edge с помощью хэш-функции ECMP. Он перемещается в другую группу ESG в случае перезагрузки/повторного развертывания ESG. После этого ESG, в который перемещается этот трафик, начинает сообщает о высоком использовании ЦП.
По умолчанию трафик распределяется между всеми парами ECMP на основе внутреннего алгоритма хэширования, который использует два бита (srcIP+dstIP). Это необходимо, чтобы весь трафик порта TCP/1556 не был подключен к одному конкретному краю.
В нашем случае интенсивное трафик резервного копирования между IP-адресами src и dst прикрепляется к этому краю, что приводит к большему циклу ЦП для этого трафика ESXi. Именно поэтому мы видим высокую загрузку ЦП на уровне ESXi/vCenter, но в гостевой операционной системе ESG использование ЦП является нормальным. В целом это ожидаемое поведение.
Affected Products
VxRail Appliance Family, VxRail Appliance SeriesArticle Properties
Article Number: 000202066
Article Type: Solution
Last Modified: 16 May 2023
Version: 3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.