PowerPath. Распространенные проблемы ESXi и элементы, на которые следует обратить внимание для устранения неполадок

Summary: Цель этой статьи базы знаний — предоставить общую информацию о проблемах ESXi и действиях по их устранению.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Причина
Проблемы с хостом ESXi могут быть вызваны многими причинами.
В данной презентации представлен список некоторых наиболее распространенных проблем и действий по их устранению.

Резолюция

Основные проверки

Версия — актуальная версия, поддерживаемая ли она.
Распространенные проблемы, исправления и ссылки JIRA см. в разделе «Известные проблемы» примечания к выпуску.
Версии PowerPath можно найти в следующих местах:
Версия PP/rpowermt
Расположение файла: host/commands/localcli_software-vib-list.txt
Распространенные проблемы и ошибки

Распространенные проблемы и ошибки

Возможности подключения
Необратимая потеря устройства
Весь путь вниз
PowerPath

Возможности подключения

Сообщения отображаются в vmkernel и часто vmkwarning Выходы.

«Состояние в сомнении; Запрошено обновление состояния Fast Path»

Эти сообщения отображаются, когда драйвер адаптера главной шины (HBA) отменяет команду, поскольку для ее выполнения потребовалось больше времени ожидания, чем 5 секунд. Операция может занять больше времени, чем время ожидания, по нескольким причинам, в том числе:

Операции резервного копирования массива (резервное копирование LUN, репликация и т. д.)
Общая перегрузка массива
Кэш чтения/записи в массиве (неправильная конфигурация, нехватка кэша и т. д.)
Проблемы с фабрикой (неисправность межкоммутаторного канала (ISL), устаревшая микропрограмма, неисправность кабеля фабрики/GBIC)
Высокая задержка SAN

1022026 базы знаний VMware

Пример.

В /var/log/vmkernel.log хоста ESXi, вы увидите записи, аналогичные следующим:

<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>

/commands/Localcli_storage-core-adapter-stats-get.txt

Указанное выше может быть полезно для проверки балансировки нагрузки HBA-адаптера и для конфликтов резервирования.
Большой дисбаланс успешно выполненных команд может указывать на политику фиксированного пути или другие проблемы с балансировкой.

Конфликты резервирования могут указывать на несоответствие логических устройств хостов (HLU) в дисковых массивах Unity.

Dell EMC Unity/VNX/CLARiiON: VMware не может правильно распознать LUN, если они находятся в нескольких группах хранения, а HLU не соответствует (исправляется пользователем)

Localcli_storage-core-device-stats-get.txt

Приведенная выше приведена статистика LUN и показано, для каких LUN имеются конфликты резервирования.

/commands/localcli_storage-san-fc-stats-get.txt

Приведенная выше команда полезна для проверки статистики HBA-адаптера, например:

Дампированные кадры
Число сбоев каналов связи
Количество потерянных сигналов
Недопустимое количество слов Tx

/commands/Localcli_storage-san-fc-events-get.txt

Отображает метки времени последних событий FC, восходящее или исходящее соединение и т. д.

/var/run/log/vmksummary.log

Отображает временные метки о том, когда хост загружался и перезагружался или не отвечал.
Насколько я понимаю, статистика HBA сбрасывается при перезагрузке.
Позволяет определить период времени, в течение которого происходили изменения статистики FC.

Образец:

2022-10-09T13:05:21Z bootstop: Host is rebooting

2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted

При обслуживании массива хранения данных или выполнении любых действий, которые могут привести к переходу целевого массива в автономный режим или в режим онлайн, драйвер Cisco Native FNIC может неправильно войти в целевой массив, в результате чего пути остаются в неработающем состоянии.

Эта проблема вызвана тем, что встроенный драйвер Cisco FNIC получает RSCN во время выполнения команды REPORT_LUNS nfnic В результате драйвер останавливается и не повторяет процесс входа. Это наблюдалось как с IBM SVC, так и с массивом IBM V7000, но это также наблюдалось бы и на любом массиве IBM Storwize, поскольку все они используют один и тот же программный стек. Это также будет наблюдаться для массивов, отличных от IBM, при условии, что они выдают RSCN во время REPORT_LUNS команды, отправляемой драйвером при входе в систему.

Обе проблемы, связанные с производительностью и снижением пути/APD, устраняются путем модернизации до nfnic 4.0.0.63 и более поздние версии.
Обратитесь к VMware и Cisco за дополнительной информацией и поддержкой.

Версии драйверов можно найти в /commands/localcli_software-vib-list.txt

(введите драйвер vib names здесь) (возможные дифы с 6.x и 7.x)

Статья базы знаний VMware # 80101

Необратимая потеря устройства (PDL)/сбой всех путей (APD)

Необратимая потеря устройства (PDL)

Хранилище данных отображается как недоступное в представлении Хранилище.
Адаптер хранилища указывает на работоспособное состояние устройства как «Связь прервана».
Все пути к устройству помечены как Dead.
В /var/log/vmkernel.log , вы увидите записи, похожие на:

Пример

cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0.

cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763".

cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible.

cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0

cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0.

cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error

cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.

Полный путь вниз (APD)

Хранилище данных отображается как недоступное в представлении Хранилище.
Адаптер системы хранения данных указывает на рабочее состояние устройства как «Dead» или «Error».
Все пути к устройству помечены как Dead.
Вам не удается подключиться непосредственно к хосту ESXi с помощью клиента vSphere.
Хост ESXi будет отображаться на сервере vCenter Server как отключенный.
В /var/log/vmkernel.log , видны записи, похожие на:

Пример

cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found

cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device.

cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...

*Сведения о решении и дополнительных примерах, основанных на различных обстоятельствах, см. в статье базы знаний VMware KB#.

**SAN следует проверить, а также включить в список действий для проблем с ADP/PDL**.

2004684 базы знаний VMware

PowerPath

Если PowerPath присутствует, необходимо проверить несколько дополнительных моментов.

Совместимость — поддерживается ли используемая версия PowerPath с работающей версией ESXi.
Это можно проверить в ESM.

Связь-

Существует несколько типов сообщений, которые могут появиться, когда PowerPath обнаруживает потерянный путь, в том числе:

PowerPath. Как исследовать состояние неработающего пути в PowerPath

Настройки NMP

Для большинства массивов Dell*, кроме VPLEX, используется циклический перебор (policy=rr ) с IOPS=1 для наилучшей производительности.
Этот параметр следует проверять при упоминании производительности или задержки.

Его можно найти в грейферах в разделе /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json

* Всегда просматривайте актуальное руководство по подключению хостов и руководства по передовым практикам в области хранения.

Номер статьи VMware 2069356

Настройка ограничения IOPS для циклического перебора вместо 1000 по умолчанию на 1 (2069356)

Руководство по подключению хостов Dell EMC, сервер VMware ESXi

Unity - страница 36

PowerStore — стр. 62

Руководства по подключению хостов EMC XtremIO

Глава 3 - страница 57

Пример настроек NMNP в /commands/localcli_storage-nmp-device-list.txt

Неправильные настройки

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0;  lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

Правильные настройки

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

Предостережения

ESXi 6.7 имеет несколько известных проблем с Cisco nfnic Драйверы, вызывающие проблемы с производительностью и подключением.
Если проблема связана с одним из вышеуказанных факторов, проверьте nfnic версии драйвера и найдите затронутые версии в базе знаний VMware (KB).

Версия драйвера указана в выходных данных /commands/localcli_software-vib-list.txt файл.

Дополнительная информация
В случае, если необходимо привлечь другие команды, убедитесь, что у вас есть следующее:

Журналы (коммутатор/хранилище)
Серийный номер системы хранения данных#
Дата и время проблемы

Если заказчику требуется помощь в работе с VMware, направьте его на страницу «Связаться с нами» VMware.
Варианты связи для поддержки

Additional Information

Актуальные сведения об известных проблемах и их решениях см. во всей документации по известным проблемам, например в примечаниях к выпуску и руководстве по общим сообщениям интерфейса командной строки.

Affected Products

PowerPath, PowerPath, PowerPath/VE, PowerPath/VE for VMware

Article Number: 000205090

Article Type: How To

Last Modified: 12 Nov 2025

Version: 7

Check if your device is covered by Support Services.

PowerPath. Распространенные проблемы ESXi и элементы, на которые следует обратить внимание для устранения неполадок

Summary: Цель этой статьи базы знаний — предоставить общую информацию о проблемах ESXi и действиях по их устранению.

Instructions

Additional Information

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

PowerPath. Распространенные проблемы ESXi и элементы, на которые следует обратить внимание для устранения неполадок

Summary: Цель этой статьи базы знаний — предоставить общую информацию о проблемах ESXi и действиях по их устранению.

Detailed Article

Instructions

Additional Info

Affected Products

Instructions

Additional Information

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services