PowerPath: Typowe problemy z oprogramowaniem ESXi i elementy do sprawdzenia w celu rozwiązania problemów

Riepilogo: Celem tego artykułu bazy wiedzy jest przedstawienie typowych informacji na temat problemów z oprogramowaniem ESXi i kroków ich rozwiązywania.

Questo articolo si applica a Questo articolo non si applica a Questo articolo non è legato a un prodotto specifico. Non tutte le versioni del prodotto sono identificate in questo articolo.

Istruzioni

Przyczyna
Istnieje wiele przyczyn problemów z hostem ESXi.
Ta prezentacja zawiera listę najczęściej występujących problemów oraz procedury ich rozwiązywania.

Rezolucja

Podstawowe kontrole
  • Wersja — czy wersja jest aktualna i nadal obsługiwana

  • Sprawdź sekcję "Znane problemy" w informacjach o wydaniu, aby uzyskać informacje o typowych problemach, poprawkach i łączach JIRA.

  • Wersje oprogramowania PowerPath można znaleźć w następujących lokalizacjach:

  • Wersja PP/rpowermt

  • Lokalizacja pliku: host/commands/localcli_software-vib-list.txt

  • Typowe problemy i błędy

Typowe problemy i błędy

  • Connectivity
  • Trwała utrata urządzenia
  • Wszystkie ścieżki w dół
  • PowerPath


Connectivity 

Komunikaty są widoczne w vmkernel i często vmkwarning Wyjść.

"stan wątpliwy; Żądano aktualizacji stanu szybkiej ścieżki"

Komunikaty te pojawiają się, gdy sterownik karty magistrali hosta (HBA) anuluje polecenie, ponieważ wykonanie polecenia trwało dłużej niż limit czasu wynoszący 5 sekund. Operacja może potrwać dłużej niż limit czasu z kilku powodów, w tym:

  • Operacje tworzenia kopii zapasowych macierzy (kopia zapasowa jednostki LUN, replikacja itp.)
  • Ogólne przeciążenie macierzy
  • Pamięć podręczna odczytu/zapisu w macierzy (błędna konfiguracja, brak pamięci podręcznej itp.)
  • Problemy z siecią (nieprawidłowe łącze między przełącznikami (ISL), nieaktualne oprogramowanie wewnętrzne, zły kabel sieci szkieletowej/GBIC)
  • Wysokie opóźnienie sieci SAN 

1022026 z bazy wiedzy VMware Kliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies.

Przykład:

W /var/log/vmkernel.log hosta ESXi, zobaczysz wpisy podobne do:

 

<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.

<YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>

 

/commands/Localcli_storage-core-adapter-stats-get.txt

Powyższe informacje mogą być przydatne do sprawdzania bilansu obciążenia HBA i konfliktów rezerwacji.
Duża nierównowaga udanych poleceń może wskazywać na ustaloną zasadę ścieżki lub inne problemy z równoważeniem.

Konflikty rezerwacji mogą wskazywać na niezgodność jednostki logicznej hosta (HLU) w macierzach Unity.  

Dell EMC Unity/VNX/CLARiiON: VMware nie widzi prawidłowo jednostek LUN, jeśli znajdują się one w wielu grupach pamięci masowej, a HLU nie jest zgodny (możliwość naprawienia przez użytkownika)
 

Localcli_storage-core-device-stats-get.txt 

Powyższe dane przedstawiają statystyki jednostek LUN i pokazują, w przypadku których występują konflikty rezerwacji.  

 

/commands/localcli_storage-san-fc-stats-get.txt

Powyższe polecenie jest przydatne do sprawdzania statystyk HBA, takich jak: 

  • Zrzucone ramki
  • Liczba awarii łącza
  • Utrata liczby sygnałów
  • Nieprawidłowa liczba słów transmisji

 

/commands/Localcli_storage-san-fc-events-get.txt

Pokazuje sygnatury czasowe ostatnich zdarzeń FC, łącze w górę lub w dół itd.  

 

/var/run/log/vmksummary.log

Wyświetla sygnatury czasowe uruchamiania i ponownego uruchamiania hosta lub braku reakcji.
O ile dobrze rozumiem, statystyki HBA są resetowane po ponownym uruchomieniu.
Daje to ramy czasowe, w których pojawiły się statystyki FC.  

Próbka:

2022-10-09T13:05:21Z bootstop: Host is rebooting

2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted

 

Podczas konserwacji macierzy pamięci masowej lub jakiejkolwiek czynności, która spowodowałaby przejście macierzy docelowej w tryb offline/online, natywny sterownik Cisco FNIC może nie logować się prawidłowo do obiektu docelowego, co powoduje, że ścieżki pozostają w stanie martwym.

Ten problem jest spowodowany przez natywny sterownik Cisco FNIC odbierający RSCN podczas REPORT_LUNS części polecenia nfnic Proces logowania do portu, który powoduje zatrzymanie sterownika i brak ponownej próby logowania. Zostało to zaobserwowane zarówno w przypadku macierzy IBM SVC, jak i IBM V7000, ale można to również zaobserwować w każdej macierzy IBM Storwize, ponieważ wszystkie używają tego samego stosu oprogramowania. Dotyczy to również macierzy innych niż IBM, o ile wysyłają one RSCN podczas REPORT_LUNS polecenia wysyłanego przez sterownik podczas logowania.

Oba problemy z wydajnością i ścieżką w dół/APD są rozwiązywane przez uaktualnienie do nfnic 4.0.0.63 lub nowszej.
Skontaktuj się z firmami VMware i Cisco, aby uzyskać dodatkowe informacje i wsparcie.

Wersje sterowników można znaleźć w /commands/localcli_software-vib-list.txt

(wprowadź sterownik vib nazwy tutaj) (możliwe difs z 6.x vs 7.x)

VMware KB# 80101Kliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies.

 

Trwała utrata urządzenia (PDL) / całkowita ścieżka w dół (APD)

Trwała utrata urządzenia (PDL)

  • Magazyn danych jest wyświetlany jako niedostępny w widoku Pamięć masowa.
  • Adapter pamięci masowej wskazuje stan działania urządzenia jako Utracono komunikację.
  • Wszystkie ścieżki do urządzenia są oznaczone jako martwe.
  • W /var/log/vmkernel.log zostanie wyświetlony wpis podobny do:

 

Przykład

cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0.

cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763".

cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible.

cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0

cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0.

cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error

cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.

 

Wszystkie ścieżki w dół (APD)

  • Magazyn danych jest wyświetlany jako niedostępny w widoku Pamięć masowa.
  • Adapter pamięci masowej wskazuje stan działania urządzenia jako Martwy lub Błąd.
  • Wszystkie ścieżki do urządzenia są oznaczone jako martwe.
  • Nie można połączyć się bezpośrednio z hostem ESXi przy użyciu klienta vSphere.
  • Host ESXi jest wyświetlany jako odłączony w vCenter Server.
  • W /var/log/vmkernel.log plik, podobne wpisy są widoczne:

 

Przykład

cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found

cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device.

cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0

cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...

 

* Zapoznaj się z artykułem VMware KB#, aby uzyskać rozwiązanie i dodatkowe przykłady w zależności od okoliczności*.

**Należy sprawdzić sieć SAN, a także podjąć działania w przypadku problemów z ADP/PDL**. 

2004684 z bazy wiedzy VMwareKliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies.

 

PowerPath

Jeśli PowerPath jest obecny, należy sprawdzić kilka dodatkowych rzeczy.

Zgodność — czy używana wersja PowerPath jest obsługiwana przez uruchomioną wersję oprogramowania ESXi.
Można to zweryfikować w EMS.

Łączność- 

Istnieje kilka typów komunikatów, które mogą się pojawić, gdy PowerPath wykryje utraconą ścieżkę, w tym: 

PowerPath: Jak zbadać martwą ścieżkę w PowerPath


Ustawienia NMP

W przypadku większości macierzy Dell*, z wyjątkiem VPLEX, algorytmu karuzelowego (policy=rr ) z IOPS=1 jest zalecane w celu uzyskania najlepszej wydajności.
To ustawienie należy sprawdzać, gdy jest mowa o wydajności lub opóźnieniu.

Można go znaleźć w grabach w sekcji /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json 

* Zawsze zapoznaj się z najbardziej aktualnym przewodnikiem po łączności z hostem i najlepszymi praktykami w zakresie pamięci masowej, aby uzyskać aktualne zalecenia.

Artykuł VMware nr 2069356

Dostosowywanie limitu IOPS algorytmu okrężnego z domyślnego 1000 do 1 (2069356)Kliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies.

Przewodnik po łączności z hostem Dell EMC Serwer VMware ESXi

Unity - strona 36

PowerStore — strona 62

Przewodniki połączeń hosta EMC XtremIO

Rozdział 3 - strona 57

 

Przykład ustawień NMNP w /commands/localcli_storage-nmp-device-list.txt

Nieprawidłowe ustawienia

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0;  lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

 

Prawidłowe ustawienia

naa.6006016051904d00f056b95dc4abd917:

   Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)

   Storage Array Type: VMW_SATP_ALUA_CX

   Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}

   Path Selection Policy: VMW_PSP_RR

   Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}

   Path Selection Policy Device Custom Config: 

   Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10

 

 

Zastrzeżenia

ESXi 6.7 ma kilka znanych problemów z Cisco nfnic Sterowniki, które powodują problemy z wydajnością i łącznością.
Jeśli problem jest związany z jednym z powyższych, sprawdź nfnic wersji sterownika i sprawdź bazę wiedzy VMware (KB), aby uzyskać informacje o wersjach, których dotyczy problem.

Wersja sterownika została znaleziona w danych wyjściowych /commands/localcli_software-vib-list.txt plik.

Dodatkowe informacje
W przypadku, gdy konieczne jest zaangażowanie innych zespołów, upewnij się, że otrzymałeś:

  • Dzienniki (przełącznik/pamięć masowa)
  • Pamięć masowa SN#
  • Data i godzina wydania

Jeśli klient poprosi o pomoc w nawiązaniu kontaktu z firmą VMware, skieruj go na stronę "Skontaktuj się z nami" VMware.
Opcje kontaktu w sprawie pomocy technicznej Kliknięcie tego hiperłącza powoduje wyświetlenie strony spoza witryny Dell Technologies.

Informazioni aggiuntive

Aktualne informacje o znanych problemach i ich rozwiązaniach można znaleźć we wszystkich dokumentacjach, takich jak informacje o wersji i przewodnik po typowych komunikatach interfejsu wiersza polecenia.

Prodotti interessati

PowerPath, PowerPath, PowerPath/VE, PowerPath/VE for VMware
Proprietà dell'articolo
Numero articolo: 000205090
Tipo di articolo: How To
Ultima modifica: 12 nov 2025
Versione:  7
Trova risposta alle tue domande dagli altri utenti Dell
Support Services
Verifica che il dispositivo sia coperto dai Servizi di supporto.