PowerPath:ESXiの一般的な問題とトラブルシューティングのための確認項目
Summary: このKB記事の目的は、ESXiの問題に関する一般的な情報とそのトラブルシューティング手順を提供することです。
Instructions
原因
ESXiホストで問題を引き起こす可能性のあるものはたくさんあります
このプレゼンテーションでは、検出される可能性のある最も一般的な問題とそのトラブルシューティング手順をリストしています
解決
-
バージョン - バージョンは最新で、まだサポートされていますか?
-
一般的な問題、修正、JIRAリンクについては、リリース ノートの「既知の問題」セクションを確認してください。
-
PowerPathのバージョンは、次の場所にあります。
-
PP/rpowermtバージョン
-
ファイルの場所: host/commands/localcli_software-vib-list.txt
-
一般的な問題とエラー
一般的な問題とエラー
- 接続性
- デバイスの永続的な損失
- すべてのパスがダウン
- PowerPath
接続性
メッセージは、 vmkernel そしてしばしば vmkwarning 出力。
「疑わしい状態。要求された高速機能状態の更新」
これらのメッセージは、コマンドが完了するまでに5秒のタイムアウト期間よりも長くかかったため、ホスト バス アダプター(HBA)ドライバーがコマンドをキャンセルしたときに表示されます。次のようないくつかの理由により、操作にタイムアウト期間よりも長くかかる場合があります。
- アレイ バックアップ操作(LUNバックアップ、レプリケーションなど)
- アレイの一般的な過負荷
- アレイ上の読み取り/書き込みキャッシュ(構成ミス、キャッシュ不足など)
- ファブリックの問題(スイッチ間リンク(ISL)の不良、古いファームウェア、ファブリック ケーブル/GBICの不良)
- 高いSANレイテンシー
Example:
の /var/log/vmkernel.log ファイルが作成されると、次のようなエントリーが表示されます。
<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>
/commands/Localcli_storage-core-adapter-stats-get.txt
上記は、HBAのロード バランスのチェックや予約の競合を確認するのに役立ちます
成功したコマンドの大きな不均衡は、固定パス ポリシーまたはその他のバランシングの問題を示している可能性があります。
予約の競合は、Unityアレイ上のホスト論理ユニット(HLU)の不整合を示している可能性があります。
「Dell EMC Unity/VNX/CLARiX:LUNが複数のストレージ グループに属していてHLUが一致しない場合、VMwareはLUNを正しく認識できない(ユーザー修正可能)
Localcli_storage-core-device-stats-get.txt
上記はLUNの統計情報と、予約の競合があるLUNを示しています。
/commands/localcli_storage-san-fc-stats-get.txt
上記のコマンドは、次のようなHBAの統計情報を確認するのに役立ちます。
- ダンプされたフレーム
- リンク障害数
- 信号損失回数
- 無効なTxワード数
/commands/Localcli_storage-san-fc-events-get.txt
最近のFCイベントのタイムスタンプ、リンク アップまたはリンク ダウンなどを表示します。
/var/run/log/vmksummary.log
ホストが起動および再起動されたとき、または応答しなくなったときのタイムスタンプを表示します。
私の理解では、HBA統計情報は再起動時にリセットされます
これにより、FCの統計情報が発生した期間がわかります。
サンプル:
2022-10-09T13:05:21Z bootstop: Host is rebooting 2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted
ストレージ アレイのメンテナンス、またはアレイ ターゲットをオフライン/オンラインにするアクションを実行すると、CiscoネイティブFNICドライバーがターゲットに正しくログインし直されず、パスがデッド状態のままになることがあります。
この問題は、Cisco ネイティブ FNIC ドライバが REPORT_LUNS コマンド部分で RSCN を受信すると発生します。 nfnic ポート ログイン プロセスが原因で、ドライバーが停止し、ログイン プロセスが再試行されなくなります。これは、IBM SVC アレイと IBM V7000 アレイの両方で観察されましたが、すべて同じソフトウェア・スタックを使用しているため、どの IBM Storwize アレイでも観察されたはずです。これは、IBM以外のアレイでも発生します。ただし、ログイン時にドライバーが送信するREPORT_LUNSコマンドの実行中にRSCNを発行している限り、発生します。
パフォーマンスとパス ダウン/APDの問題は、両方とも、次のバージョンにアップグレードすることで解決されます。 nfnic 4.0.0.63以降。
追加情報とサポートについては、VMware および Cisco にお問い合わせください。
ドライバーのバージョンは、次の場所で確認できます。 /commands/localcli_software-vib-list.txt
(ドライバーを入力 vib 名前はここ)(6.xと7.xで可能なDIF)
Permanent Device Loss (PDL)/All Path Down (APD)
永続的なデバイス損失(PDL)
- データストアが[ストレージ]ビューに使用不可として表示されます。
- ストレージ アダプターは、デバイスの動作状態を通信切断として示します。
- デバイスへのすべてのパスが使用不可としてマークされます。
- の
/var/log/vmkernel.logファイルの場合、次のようなエントリーが表示されます。
例
cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0. cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763". cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible. cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0 cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0. cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.
すべてのパス ダウン(APD)
- データストアが[ストレージ]ビューに使用不可として表示されます。
- ストレージ アダプターは、デバイスの動作状態が「Dead」または「Error」であることを示します。
- デバイスへのすべてのパスが使用不可としてマークされます。
- vSphere Clientを使用してESXiホストに直接接続することはできません。
- ESXiホストがvCenter Serverで「Disconnected」と表示される。
- の
/var/log/vmkernel.logファイルの場合、同様のエントリが表示されます。
例
cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device. cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0 cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...
*さまざまな状況に基づく解決策とその他の例については、VMware KB#を確認してください*。
**SANとADP/PDLの問題に対するアクション アイテムを確認する必要があります**。
PowerPath
PowerPathが存在する場合は、さらにいくつかの点を確認する必要があります。
互換性:使用中のPowerPathバージョンは、実行中のESXiバージョンでサポートされていますか
これはESMで確認できます。
接続-
PowerPathが失われたパスを検出したときに表示されるメッセージには、次のようないくつかのタイプがあります。
PowerPath:PowerPathでpath deadを調査する方法
NMP設定
ほとんどのDellアレイ*の場合、VPLEX、ラウンド ロビン(policy=rr 最高のパフォーマンスを得るには、IOPS=1の設定が推奨されます。
パフォーマンスまたはレイテンシーについて言及している場合は、この設定を確認する必要があります。
これは、次のグラブにあります。 /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json
*最新の推奨事項については、常に最新のホスト接続ガイドとストレージのベスト プラクティス ガイドを参照してください。
VMware記事番号2069356
ラウンド ロビンIOPS制限をデフォルトの1000から1に調整(2069356)
Dell EMCホスト接続性ガイドVMware ESXi Server
Unity - 36ページ
PowerStore - 62ページ
第3章 - 57ページ
でのNMNP設定の例 /commands/localcli_storage-nmp-device-list.txt
設定が正しくない
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
正しい設定
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
注意 事項
ESXi 6.7には、Ciscoに関するいくつかの既知の問題があります nfnic パフォーマンスと接続の問題を引き起こすドライバー。
問題が上記のいずれかに関連している場合は、Cisco nfnic ドライバーのバージョンを確認し、影響を受けるバージョンをVMwareナレッジベース(KB)で確認します。
ドライバーのバージョンは、次の出力で確認できます: /commands/localcli_software-vib-list.txt ファイル.
追加情報
他のチームと連携する必要がある場合は、次のものを入手してください。
- ログ(スイッチ/ストレージ)
- ストレージSN#
- 問題の日付と時刻
お客様がVMwareのサポートを要求した場合は、VMwareの「お問い合わせ」ページを案内します。
サポート連絡先オプション
Additional Information
既知の問題と解決策に関する最新情報については、リリース ノートやCLI共通メッセージ ガイドなど、既知の問題に関するすべてのドキュメントを参照してください。