PowerPath: Yaygın ESXi sorunları ve sorun giderme için kontrol edilecek öğeler
Summary: Bu KB makalesinin amacı, ESXi sorunları ve bu sorunları giderme adımları hakkında genel bilgiler sağlamaktır.
Instructions
Neden
ESXi ana bilgisayarında sorunlara neden olabilecek birçok şey vardır.
Bu sunumda, bulunabilecek en yaygın şeylerden bazıları ve bunların sorun giderme adımları yer almaktadır.
Çözünürlük
-
Sürüm - Sürüm güncel mi ve hala destekleniyor mu
-
Sık karşılaşılan sorunlar, düzeltmeler ve JIRA bağlantıları için sürüm notlarının "Bilinen Sorunlar" bölümünü kontrol edin.
-
PowerPath sürümleri aşağıdaki konumlarda bulunabilir:
-
PP/rpowermt sürümü
-
Dosya konumu: host/commands/localcli_software-vib-list.txt
-
Yaygın Sorunlar ve Hatalar
Yaygın Sorunlar ve Hatalar
- Bağlantı
- Kalıcı Cihaz Kaybı
- Hepsi Aşağı
- PowerPath
Bağlantı
Mesajlar, vmkernel ve sık sık vmkwarning Çıkış.
"Şüphe içinde devlet; İstenen Hızlı Yol Durumu Güncelleştirmesi"
Bu mesajlar, Ana Bilgisayar Veri Yolu Bağdaştırıcısı (HBA) sürücüsünün, komutun tamamlanması 5 saniyelik zaman aşımı süresinden daha uzun sürdüğü için bir komutu iptal etmesiyle görünür. Bir işlem, aşağıdakiler de dahil olmak üzere çeşitli nedenlerden dolayı zaman aşımı süresinden daha uzun sürebilir:
- Dizi yedekleme işlemleri (LUN yedekleme, çoğaltma vb.)
- Dizide genel aşırı yük
- Dizideki Önbelleği Okuma/Yazma (yanlış yapılandırma, önbellek eksikliği vb.)
- Yapı sorunları (Bozuk Anahtarlar Arası Bağlantı (ISL), güncel olmayan bellenim, bozuk yapı kablosu/GBIC)
- Yüksek SAN gecikme süresi
Örneğin:
İçinde /var/log/vmkernel.log dosyasında aşağıdakine benzer girişler görürsünüz:
<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>
/commands/Localcli_storage-core-adapter-stats-get.txt
Yukarıdakiler, HBA yük dengesini kontrol etmek ve rezervasyon çakışmaları için yararlı olabilir.
Başarılı komutların büyük bir dengesizliği, sabit bir yol politikasına veya diğer dengeleme sorunlarına işaret edebilir.
Ayırma çakışmaları, Unity dizilerindeki Ana Bilgisayar Mantıksal Birimi (HLU) uyuşmazlıklarının göstergesi olabilir.
Dell EMC Unity/VNX/CLARiiON: VMware, birden çok Depolama Grubundaysa ve HLU eşleşmiyorsa LUN'ları doğru şekilde göremez (Kullanıcı Tarafından Düzeltilebilir)
Localcli_storage-core-device-stats-get.txt
Yukarıdakiler, LUN istatistiklerini verir ve hangi LUN'ların ayırma çakışmaları olduğunu gösterir.
/commands/localcli_storage-san-fc-stats-get.txt
Yukarıdaki komut, aşağıdaki gibi HBA istatistiklerini kontrol etmek için kullanışlıdır:
- Dökülmüş Çerçeveler
- Bağlantı Hatası Sayısı
- Sinyal Sayılarının Kaybı
- Geçersiz Tx Kelime Sayısı
/commands/Localcli_storage-san-fc-events-get.txt
Son FC olayı zaman damgalarını, bağlantı çalışıyor veya kesiliyor vb. gösterir.
/var/run/log/vmksummary.log
Ana bilgisayarın ne zaman önyüklenip yeniden başlatıldığını veya yanıt vermediğini gösteren zaman damgalarını gösterir.
Anladığım kadarıyla HBA istatistikleri yeniden başlatma sırasında sıfırlanıyor.
Bu, FC istatistiklerinin ne zaman gerçekleştiğine dair bir zaman aralığı sağlar.
Örnek:
2022-10-09T13:05:21Z bootstop: Host is rebooting 2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted
Depolama dizisi bakımı veya bir dizi hedefinin çevrimdışı/çevrimiçi olmasına neden olacak herhangi bir eylem gerçekleştirirken, Cisco Yerel FNIC sürücüsü hedefte düzgün bir şekilde oturum açmayabilir ve bu da yolların ölü durumda kalmasına neden olabilir.
Bu sorun, Cisco Yerel FNIC sürücüsünün REPORT_LUNS komutu bölümünde RSCN almasından kaynaklanır. nfnic Sürücünün oturum açma işlemini durdurmasına ve yeniden denememesine neden olan bağlantı noktası oturum açma işlemi. Bu, hem IBM SVC hem de IBM V7000 dizisinde gözlemlendi, ancak hepsi aynı yazılım yığınını kullandığından herhangi bir IBM Storwize dizisinde de gözlemlenebilirdi. Bu, sürücünün oturum açma sırasında gönderdiği REPORT_LUNS komutu sırasında bir RSCN yayınladıkları sürece IBM olmayan diziler için de gözlemlenir.
Hem performans hem de yol aşağı/APD ile ilgili sorunlar şuraya yükseltme yapılarak çözülür: nfnic 4.0.0.63 ve üzeri.
Daha fazla bilgi ve destek için VMware ve Cisco ile iletişime geçin.
Sürücü sürümleri şurada bulunabilir: /commands/localcli_software-vib-list.txt
(Sürücü girin vib İsimler burada) (6.x ve 7.x ile olası DIF'ler)
Kalıcı Aygıt Kaybı (PDL)/Tüm Yollar Aşağı (APD)
Kalıcı Cihaz Kaybı (PDL)
- Bir veri deposu, Storage görünümünde kullanılamıyor olarak gösterilir.
- Depolama bağdaştırıcısı, aygıtın Çalışma Durumunu İletişim Kaybı olarak gösterir.
- Aygıta giden tüm yollar Ölü olarak işaretlenir.
- İçinde
/var/log/vmkernel.logdosyasında, aşağıdakine benzer girişler görürsünüz:
Örnek
cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0. cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763". cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible. cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0 cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0. cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.
Tüm Yol Aşağı (APD)
- Bir veri deposu, Storage görünümünde kullanılamıyor olarak gösterilir.
- Depolama bağdaştırıcısı, aygıtın Çalışma Durumunu Ölü veya Hata olarak gösterir.
- Aygıta giden tüm yollar Ölü olarak işaretlenir.
- vSphere Client ı kullanarak doğrudan ESXi ana bilgisayarına bağlanamıyorsunuz.
- ESXi ana bilgisayarı, vCenter Server'da Disconnected olarak görünüyor.
- İçinde
/var/log/vmkernel.logdosyasında, benzer girişler görülür:
Örnek
cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device. cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0 cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...
*Çözüm ve çeşitli koşullara göre ek örnekler için VMware KB# öğesini kontrol edin*.
**ADP/PDL sorunları için bir eylem öğesinin yanı sıra SAN da kontrol edilmelidir**.
PowerPath
PowerPath varsa, kontrol edilmesi gereken birkaç şey daha vardır.
Uyumluluk - Kullanılan PowerPath sürümü, ESXi'nin çalışan sürümüyle destekleniyor mu?
Bu, ESM'de doğrulanabilir.
Bağlantı-
PowerPath aşağıdakiler de dahil olmak üzere kaybolan bir yol algıladığında görüntülenebilecek çeşitli mesaj türleri vardır.
PowerPath: PowerPath'te ölü yol nasıl araştırılır
NMP Ayarları
VPLEX hariç çoğu Dell dizisi* için, Çevrimsel Sıralı (policy=rr ) en iyi performans için IOPS=1 ile önerilir.
Performans veya gecikme süresi söz konusu olduğunda bu ayar kontrol edilmelidir.
Bu, aşağıdaki kepçelerde bulunabilir /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json
*Güncel öneriler için her zaman en güncel ana bilgisayar bağlantı kılavuzuna ve depolama en iyi uygulama kılavuzlarına bakın.
VMware makale numarası 2069356
Çevrimsel Sıralı IOPS sınırını varsayılan 1000'den 1'e (2069356) ayarlama
Dell EMC Ana Bilgisayar Bağlantı Kılavuzu VMware ESXi Sunucusu
Unity - sayfa 36
PowerStore - sayfa 62
EMC XtremIO Ana Bilgisayar Bağlantı Rehberleri
Bölüm 3 - sayfa 57
NMNP ayarları örneği /commands/localcli_storage-nmp-device-list.txt
Yanlış Ayarlar
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Doğru ayarlar
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
Uyarılar
ESXi 6.7'de Cisco ile ilgili bilinen birkaç sorun vardır nfnic Performans ve bağlantı sorunlarına neden olan sürücüler.
Sorun yukarıdakilerden biriyle ilgiliyse, Cisco Connectrix'in nfnic sürücü sürümünü yükleyin ve etkilenen sürümler için VMware Bilgi Bankası'nı (KB) kontrol edin.
Sürücü sürümü aşağıdakilerin çıktısında bulunur: /commands/localcli_software-vib-list.txt dosya.
ek bilgi
Diğer takımların devreye girmesi gerektiğinde, aşağıdakileri aldığınızdan emin olun:
- Günlükler (anahtar/depolama)
- Depolama SN#
- Sorunun tarih ve saati
VMware ile etkileşim kurma konusunda yardım isteyen müşteriyi, VMware "bize ulaşın" sayfasına yönlendirin.
Destek İletişim Seçenekleri
Additional Information
Bilinen sorunlar ve çözümleri hakkında güncel bilgiler için Sürüm Notları ve CLI Ortak mesajlar kılavuzu gibi bilinen sorunlarla ilgili tüm belgelere bakın.