PowerPath. Распространенные проблемы ESXi и элементы, на которые следует обратить внимание для устранения неполадок

Riepilogo: Цель этой статьи базы знаний — предоставить общую информацию о проблемах ESXi и действиях по их устранению.

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Istruzioni

Причина
Проблемы с хостом ESXi могут быть вызваны многими причинами.
В данной презентации представлен список некоторых наиболее распространенных проблем и действий по их устранению.

Резолюция

Основные проверки
  • Версия — актуальная версия, поддерживаемая ли она.

  • Распространенные проблемы, исправления и ссылки JIRA см. в разделе «Известные проблемы» примечания к выпуску.

  • Версии PowerPath можно найти в следующих местах:

  • Версия PP/rpowermt

  • Расположение файла: host/commands/localcli_software-vib-list.txt

  • Распространенные проблемы и ошибки

Распространенные проблемы и ошибки

  • Возможности подключения
  • Необратимая потеря устройства
  • Весь путь вниз
  • PowerPath


Возможности подключения 

Сообщения отображаются в vmkernel и часто vmkwarning Выходы.

«Состояние в сомнении; Запрошено обновление состояния Fast Path»

Эти сообщения отображаются, когда драйвер адаптера главной шины (HBA) отменяет команду, поскольку для ее выполнения потребовалось больше времени ожидания, чем 5 секунд. Операция может занять больше времени, чем время ожидания, по нескольким причинам, в том числе:

  • Операции резервного копирования массива (резервное копирование LUN, репликация и т. д.)
  • Общая перегрузка массива
  • Кэш чтения/записи в массиве (неправильная конфигурация, нехватка кэша и т. д.)
  • Проблемы с фабрикой (неисправность межкоммутаторного канала (ISL), устаревшая микропрограмма, неисправность кабеля фабрики/GBIC)
  • Высокая задержка SAN 

1022026 базы знаний VMware Эта гиперссылка позволяет перейти на сайт за пределами Dell Technologies.

Пример.

В /var/log/vmkernel.log хоста ESXi, вы увидите записи, аналогичные следующим:

 

<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>

 

/commands/Localcli_storage-core-adapter-stats-get.txt

Указанное выше может быть полезно для проверки балансировки нагрузки HBA-адаптера и для конфликтов резервирования.
Большой дисбаланс успешно выполненных команд может указывать на политику фиксированного пути или другие проблемы с балансировкой.

Конфликты резервирования могут указывать на несоответствие логических устройств хостов (HLU) в дисковых массивах Unity.  

Dell EMC Unity/VNX/CLARiiON: VMware не может правильно распознать LUN, если они находятся в нескольких группах хранения, а HLU не соответствует (исправляется пользователем)
 

Localcli_storage-core-device-stats-get.txt 

Приведенная выше приведена статистика LUN и показано, для каких LUN имеются конфликты резервирования.  

 

/commands/localcli_storage-san-fc-stats-get.txt

Приведенная выше команда полезна для проверки статистики HBA-адаптера, например: 

  • Дампированные кадры
  • Число сбоев каналов связи
  • Количество потерянных сигналов
  • Недопустимое количество слов Tx

 

/commands/Localcli_storage-san-fc-events-get.txt

Отображает метки времени последних событий FC, восходящее или исходящее соединение и т. д.  

 

/var/run/log/vmksummary.log

Отображает временные метки о том, когда хост загружался и перезагружался или не отвечал.
Насколько я понимаю, статистика HBA сбрасывается при перезагрузке.
Позволяет определить период времени, в течение которого происходили изменения статистики FC.  

Образец:

2022-10-09T13:05:21Z bootstop: Host is rebooting

2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted

 

При обслуживании массива хранения данных или выполнении любых действий, которые могут привести к переходу целевого массива в автономный режим или в режим онлайн, драйвер Cisco Native FNIC может неправильно войти в целевой массив, в результате чего пути остаются в неработающем состоянии.

Эта проблема вызвана тем, что встроенный драйвер Cisco FNIC получает RSCN во время выполнения команды REPORT_LUNS nfnic В результате драйвер останавливается и не повторяет процесс входа. Это наблюдалось как с IBM SVC, так и с массивом IBM V7000, но это также наблюдалось бы и на любом массиве IBM Storwize, поскольку все они используют один и тот же программный стек. Это также будет наблюдаться для массивов, отличных от IBM, при условии, что они выдают RSCN во время REPORT_LUNS команды, отправляемой драйвером при входе в систему.

Обе проблемы, связанные с производительностью и снижением пути/APD, устраняются путем модернизации до nfnic 4.0.0.63 и более поздние версии.
Обратитесь к VMware и Cisco за дополнительной информацией и поддержкой.

Версии драйверов можно найти в /commands/localcli_software-vib-list.txt

(введите драйвер vib names здесь) (возможные дифы с 6.x и 7.x)

Статья базы знаний VMware # 80101Эта гиперссылка позволяет перейти на сайт за пределами Dell Technologies.

 

Необратимая потеря устройства (PDL)/сбой всех путей (APD)

Необратимая потеря устройства (PDL)

  • Хранилище данных отображается как недоступное в представлении Хранилище.
  • Адаптер хранилища указывает на работоспособное состояние устройства как «Связь прервана».
  • Все пути к устройству помечены как Dead.
  • В /var/log/vmkernel.log , вы увидите записи, похожие на:

 

Пример

cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0.

cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763".

cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible.

cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0

cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0.

cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error

cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.

 

Полный путь вниз (APD)

  • Хранилище данных отображается как недоступное в представлении Хранилище.
  • Адаптер системы хранения данных указывает на рабочее состояние устройства как «Dead» или «Error».
  • Все пути к устройству помечены как Dead.
  • Вам не удается подключиться непосредственно к хосту ESXi с помощью клиента vSphere.
  • Хост ESXi будет отображаться на сервере vCenter Server как отключенный.
  • В /var/log/vmkernel.log , видны записи, похожие на:

 

Пример

cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found

cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device.

cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...

 

*Сведения о решении и дополнительных примерах, основанных на различных обстоятельствах, см. в статье базы знаний VMware KB#.

**SAN следует проверить, а также включить в список действий для проблем с ADP/PDL**. 

2004684 базы знаний VMwareЭта гиперссылка позволяет перейти на сайт за пределами Dell Technologies.

 

PowerPath

Если PowerPath присутствует, необходимо проверить несколько дополнительных моментов.

Совместимость — поддерживается ли используемая версия PowerPath с работающей версией ESXi.
Это можно проверить в ESM.

Связь- 

Существует несколько типов сообщений, которые могут появиться, когда PowerPath обнаруживает потерянный путь, в том числе: 

PowerPath. Как исследовать состояние неработающего пути в PowerPath


Настройки NMP

Для большинства массивов Dell*, кроме VPLEX, используется циклический перебор (policy=rr ) с IOPS=1 для наилучшей производительности.
Этот параметр следует проверять при упоминании производительности или задержки.

Его можно найти в грейферах в разделе /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json 

* Всегда просматривайте актуальное руководство по подключению хостов и руководства по передовым практикам в области хранения.

Номер статьи VMware 2069356

Настройка ограничения IOPS для циклического перебора вместо 1000 по умолчанию на 1 (2069356)Эта гиперссылка позволяет перейти на сайт за пределами Dell Technologies.

Руководство по подключению хостов Dell EMC, сервер VMware ESXi

Unity - страница 36

PowerStore — стр. 62

Руководства по подключению хостов EMC XtremIO

Глава 3 - страница 57

 

Пример настроек NMNP в /commands/localcli_storage-nmp-device-list.txt

Неправильные настройки

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0;  lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

 

Правильные настройки

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

 

 

Предостережения

ESXi 6.7 имеет несколько известных проблем с Cisco nfnic Драйверы, вызывающие проблемы с производительностью и подключением.
Если проблема связана с одним из вышеуказанных факторов, проверьте nfnic версии драйвера и найдите затронутые версии в базе знаний VMware (KB).

Версия драйвера указана в выходных данных /commands/localcli_software-vib-list.txt файл.

Дополнительная информация
В случае, если необходимо привлечь другие команды, убедитесь, что у вас есть следующее:

  • Журналы (коммутатор/хранилище)
  • Серийный номер системы хранения данных#
  • Дата и время проблемы

Если заказчику требуется помощь в работе с VMware, направьте его на страницу «Связаться с нами» VMware.
Варианты связи для поддержки Эта гиперссылка позволяет перейти на сайт за пределами Dell Technologies.

Informazioni aggiuntive

Актуальные сведения об известных проблемах и их решениях см. во всей документации по известным проблемам, например в примечаниях к выпуску и руководстве по общим сообщениям интерфейса командной строки.

Prodotti interessati

PowerPath, PowerPath, PowerPath/VE, PowerPath/VE for VMware
Proprietà dell'articolo
Numero articolo: 000205090
Tipo di articolo: How To
Ultima modifica: 12 nov 2025
Versione:  7
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.