PowerPath: Typowe problemy z oprogramowaniem ESXi i elementy do sprawdzenia w celu rozwiązania problemów

Summary: Celem tego artykułu bazy wiedzy jest przedstawienie typowych informacji na temat problemów z oprogramowaniem ESXi i kroków ich rozwiązywania.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Przyczyna
Istnieje wiele przyczyn problemów z hostem ESXi.
Ta prezentacja zawiera listę najczęściej występujących problemów oraz procedury ich rozwiązywania.

Rezolucja

Podstawowe kontrole
  • Wersja — czy wersja jest aktualna i nadal obsługiwana

  • Sprawdź sekcję "Znane problemy" w informacjach o wydaniu, aby uzyskać informacje o typowych problemach, poprawkach i łączach JIRA.

  • Wersje oprogramowania PowerPath można znaleźć w następujących lokalizacjach:

  • Wersja PP/rpowermt

  • Lokalizacja pliku: host/commands/localcli_software-vib-list.txt

  • Typowe problemy i błędy

Typowe problemy i błędy

  • Connectivity
  • Trwała utrata urządzenia
  • Wszystkie ścieżki w dół
  • PowerPath


Connectivity 

Komunikaty są widoczne w vmkernel i często vmkwarning Wyjść.

"stan wątpliwy; Żądano aktualizacji stanu szybkiej ścieżki"

Komunikaty te pojawiają się, gdy sterownik karty magistrali hosta (HBA) anuluje polecenie, ponieważ wykonanie polecenia trwało dłużej niż limit czasu wynoszący 5 sekund. Operacja może potrwać dłużej niż limit czasu z kilku powodów, w tym:

  • Operacje tworzenia kopii zapasowych macierzy (kopia zapasowa jednostki LUN, replikacja itp.)
  • Ogólne przeciążenie macierzy
  • Pamięć podręczna odczytu/zapisu w macierzy (błędna konfiguracja, brak pamięci podręcznej itp.)
  • Problemy z siecią (nieprawidłowe łącze między przełącznikami (ISL), nieaktualne oprogramowanie wewnętrzne, zły kabel sieci szkieletowej/GBIC)
  • Wysokie opóźnienie sieci SAN 

1022026 z bazy wiedzy VMware Kliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies.

Przykład:

W /var/log/vmkernel.log hosta ESXi, zobaczysz wpisy podobne do:

 

<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>

 

/commands/Localcli_storage-core-adapter-stats-get.txt

Powyższe informacje mogą być przydatne do sprawdzania bilansu obciążenia HBA i konfliktów rezerwacji.
Duża nierównowaga udanych poleceń może wskazywać na ustaloną zasadę ścieżki lub inne problemy z równoważeniem.

Konflikty rezerwacji mogą wskazywać na niezgodność jednostki logicznej hosta (HLU) w macierzach Unity.  

Dell EMC Unity/VNX/CLARiiON: VMware nie widzi prawidłowo jednostek LUN, jeśli znajdują się one w wielu grupach pamięci masowej, a HLU nie jest zgodny (możliwość naprawienia przez użytkownika)
 

Localcli_storage-core-device-stats-get.txt 

Powyższe dane przedstawiają statystyki jednostek LUN i pokazują, w przypadku których występują konflikty rezerwacji.  

 

/commands/localcli_storage-san-fc-stats-get.txt

Powyższe polecenie jest przydatne do sprawdzania statystyk HBA, takich jak: 

  • Zrzucone ramki
  • Liczba awarii łącza
  • Utrata liczby sygnałów
  • Nieprawidłowa liczba słów transmisji

 

/commands/Localcli_storage-san-fc-events-get.txt

Pokazuje sygnatury czasowe ostatnich zdarzeń FC, łącze w górę lub w dół itd.  

 

/var/run/log/vmksummary.log

Wyświetla sygnatury czasowe uruchamiania i ponownego uruchamiania hosta lub braku reakcji.
O ile dobrze rozumiem, statystyki HBA są resetowane po ponownym uruchomieniu.
Daje to ramy czasowe, w których pojawiły się statystyki FC.  

Próbka:

2022-10-09T13:05:21Z bootstop: Host is rebooting

2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted

 

Podczas konserwacji macierzy pamięci masowej lub jakiejkolwiek czynności, która spowodowałaby przejście macierzy docelowej w tryb offline/online, natywny sterownik Cisco FNIC może nie logować się prawidłowo do obiektu docelowego, co powoduje, że ścieżki pozostają w stanie martwym.

Ten problem jest spowodowany przez natywny sterownik Cisco FNIC odbierający RSCN podczas REPORT_LUNS części polecenia nfnic Proces logowania do portu, który powoduje zatrzymanie sterownika i brak ponownej próby logowania. Zostało to zaobserwowane zarówno w przypadku macierzy IBM SVC, jak i IBM V7000, ale można to również zaobserwować w każdej macierzy IBM Storwize, ponieważ wszystkie używają tego samego stosu oprogramowania. Dotyczy to również macierzy innych niż IBM, o ile wysyłają one RSCN podczas REPORT_LUNS polecenia wysyłanego przez sterownik podczas logowania.

Oba problemy z wydajnością i ścieżką w dół/APD są rozwiązywane przez uaktualnienie do nfnic 4.0.0.63 lub nowszej.
Skontaktuj się z firmami VMware i Cisco, aby uzyskać dodatkowe informacje i wsparcie.

Wersje sterowników można znaleźć w /commands/localcli_software-vib-list.txt

(wprowadź sterownik vib nazwy tutaj) (możliwe difs z 6.x vs 7.x)

VMware KB# 80101Kliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies.

 

Trwała utrata urządzenia (PDL) / całkowita ścieżka w dół (APD)

Trwała utrata urządzenia (PDL)

  • Magazyn danych jest wyświetlany jako niedostępny w widoku Pamięć masowa.
  • Adapter pamięci masowej wskazuje stan działania urządzenia jako Utracono komunikację.
  • Wszystkie ścieżki do urządzenia są oznaczone jako martwe.
  • W /var/log/vmkernel.log zostanie wyświetlony wpis podobny do:

 

Przykład

cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0.

cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763".

cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible.

cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0

cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0.

cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error

cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.

 

Wszystkie ścieżki w dół (APD)

  • Magazyn danych jest wyświetlany jako niedostępny w widoku Pamięć masowa.
  • Adapter pamięci masowej wskazuje stan działania urządzenia jako Martwy lub Błąd.
  • Wszystkie ścieżki do urządzenia są oznaczone jako martwe.
  • Nie można połączyć się bezpośrednio z hostem ESXi przy użyciu klienta vSphere.
  • Host ESXi jest wyświetlany jako odłączony w vCenter Server.
  • W /var/log/vmkernel.log plik, podobne wpisy są widoczne:

 

Przykład

cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found

cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device.

cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...

 

* Zapoznaj się z artykułem VMware KB#, aby uzyskać rozwiązanie i dodatkowe przykłady w zależności od okoliczności*.

**Należy sprawdzić sieć SAN, a także podjąć działania w przypadku problemów z ADP/PDL**. 

2004684 z bazy wiedzy VMwareKliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies.

 

PowerPath

Jeśli PowerPath jest obecny, należy sprawdzić kilka dodatkowych rzeczy.

Zgodność — czy używana wersja PowerPath jest obsługiwana przez uruchomioną wersję oprogramowania ESXi.
Można to zweryfikować w EMS.

Łączność- 

Istnieje kilka typów komunikatów, które mogą się pojawić, gdy PowerPath wykryje utraconą ścieżkę, w tym: 

PowerPath: Jak zbadać martwą ścieżkę w PowerPath


Ustawienia NMP

W przypadku większości macierzy Dell*, z wyjątkiem VPLEX, algorytmu karuzelowego (policy=rr ) z IOPS=1 jest zalecane w celu uzyskania najlepszej wydajności.
To ustawienie należy sprawdzać, gdy jest mowa o wydajności lub opóźnieniu.

Można go znaleźć w grabach w sekcji /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json 

* Zawsze zapoznaj się z najbardziej aktualnym przewodnikiem po łączności z hostem i najlepszymi praktykami w zakresie pamięci masowej, aby uzyskać aktualne zalecenia.

Artykuł VMware nr 2069356

Dostosowywanie limitu IOPS algorytmu okrężnego z domyślnego 1000 do 1 (2069356)Kliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies.

Przewodnik po łączności z hostem Dell EMC Serwer VMware ESXi

Unity - strona 36

PowerStore — strona 62

Przewodniki połączeń hosta EMC XtremIO

Rozdział 3 - strona 57

 

Przykład ustawień NMNP w /commands/localcli_storage-nmp-device-list.txt

Nieprawidłowe ustawienia

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0;  lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

 

Prawidłowe ustawienia

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

 

 

Zastrzeżenia

ESXi 6.7 ma kilka znanych problemów z Cisco nfnic Sterowniki, które powodują problemy z wydajnością i łącznością.
Jeśli problem jest związany z jednym z powyższych, sprawdź nfnic wersji sterownika i sprawdź bazę wiedzy VMware (KB), aby uzyskać informacje o wersjach, których dotyczy problem.

Wersja sterownika została znaleziona w danych wyjściowych /commands/localcli_software-vib-list.txt plik.

Dodatkowe informacje
W przypadku, gdy konieczne jest zaangażowanie innych zespołów, upewnij się, że otrzymałeś:

  • Dzienniki (przełącznik/pamięć masowa)
  • Pamięć masowa SN#
  • Data i godzina wydania

Jeśli klient poprosi o pomoc w nawiązaniu kontaktu z firmą VMware, skieruj go na stronę "Skontaktuj się z nami" VMware.
Opcje kontaktu w sprawie pomocy technicznej Kliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies.

Additional Information

Aktualne informacje o znanych problemach i ich rozwiązaniach można znaleźć we wszystkich dokumentacjach, takich jak informacje o wersji i przewodnik po typowych komunikatach interfejsu wiersza polecenia.

Affected Products

PowerPath, PowerPath, PowerPath/VE, PowerPath/VE for VMware
Article Properties
Article Number: 000205090
Article Type: How To
Last Modified: 12 Nov 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.