PowerPath: 일반적인 ESXi 문제 및 문제 해결 시 확인할 항목
Summary: 이 KB 문서의 목적은 ESXi 문제와 그 해결 단계에 대한 일반적인 정보를 제공하는 것입니다.
Instructions
원인
ESXi 호스트에 문제를 일으킬 수 있는 여러 가지 요인이 있습니다.
이 프레젠테이션은 가장 일반적으로 발견될 수 있는 몇 가지 문제와 문제 해결 단계의 목록입니다.
해상도
-
Version - 최신 버전이며 계속 지원되는지 여부
-
일반적인 문제, 수정 사항 및 JIRA 링크는 릴리스 노트의 "알려진 문제" 섹션을 확인하십시오.
-
PowerPath 버전은 다음 위치에서 찾을 수 있습니다.
-
PP/rpowermt 버전
-
파일 위치: host/commands/localcli_software-vib-list.txt
-
일반적인 문제 및 오류
일반적인 문제 및 오류
- 연결
- 영구적인 디바이스 손실
- 모든 경로 아래로
- PowerPath
연결
메시지는 vmkernel 그리고 자주 vmkwarning 출력.
"의심의 여지가 있는 상태; Requested Fast Path State Update" 오류 메시지가 표시됩니다.
이러한 메시지는 명령을 완료하는 데 5초의 제한 시간보다 오래 걸려 HBA(호스트 버스 어댑터) 드라이버가 명령을 취소할 때 나타납니다. 다음과 같은 여러 가지 이유로 인해 작업이 제한 시간보다 오래 걸릴 수 있습니다.
- 어레이 백업 작업(LUN 백업, 복제 등)
- 어레이의 일반 과부하
- 어레이의 읽기/쓰기 캐시(잘못된 구성, 캐시 부족 등)
- 패브릭 문제(잘못된 ISL(Inter-Switch Link), 오래된 펌웨어, 잘못된 패브릭 케이블/GBIC)
- 긴 SAN 레이턴시
예:
안에 /var/log/vmkernel.log ESXi 호스트의 파일에 다음과 유사한 항목이 표시됩니다.
<YYYY-MM-DD>T<time> esx12 vmkernel: 116:03:44:19.039 cpu4:4196)<6>qla2xxx 0000:0f:00.0: scsi(6:0:152): Abort command issued -- 1 67a23dcd 2002. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)NMP: nmp_CompleteCommandForPath: Command 0x2a (0x4100020e0b00) to NMP device "sym.029010111831353837" failed on physical path "vmhba2:C0:T0:L152" H:0x2 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. <YYYY-MM-DD>T<time></time> esx12 vmkernel: 116:03:44:19.039 cpu4:4100)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe: NMP device "sym.029010111831353837" state in doubt; requested fast path state update...</time>
/commands/Localcli_storage-core-adapter-stats-get.txt
위의 내용은 HBA 로드 밸런스를 확인하고 예약 충돌에 유용할 수 있습니다.
성공한 명령의 불균형이 크면 고정 경로 정책 또는 기타 밸런싱 문제가 발생할 수 있습니다.
예약 충돌은 Unity 어레이의 HLU(Host Logical Unit) 불일치를 나타낼 수 있습니다.
Dell EMC Unity/VNX/CLARiiON: LUN이 여러 스토리지 그룹에 있고 HLU가 일치하지 않으면 VMware에서 LUN을 올바르게 인식할 수 없음(사용자 수정 가능)
Localcli_storage-core-device-stats-get.txt
위 그림에서는 LUN 통계를 제공하고 예약 충돌이 있는 LUN을 보여줍니다.
/commands/localcli_storage-san-fc-stats-get.txt
위의 명령은 다음과 같은 HBA 통계를 확인하는 데 유용합니다.
- 덤프된 프레임
- 링크 장애 수
- 신호 카운트 손실
- Tx 단어 수가 잘못되었습니다.
/commands/Localcli_storage-san-fc-events-get.txt
최근 FC 이벤트 타임스탬프, 링크 업 또는 다운 등을 표시합니다.
/var/run/log/vmksummary.log
호스트가 부팅 및 재부팅된 시점 또는 응답하지 않은 시점의 타임스탬프를 표시합니다.
내가 알기로는 HBA 통계는 재부팅시 재설정됩니다.
이렇게 하면 FC 통계가 발생한 기간을 알 수 있습니다.
샘플:
2022-10-09T13:05:21Z bootstop: Host is rebooting 2022-10-09T13:10:55.351Z bootstop[2107273]: Host has booted
스토리지 어레이 유지 관리 또는 어레이 타겟을 오프라인/온라인 상태로 만드는 작업을 수행할 때 Cisco Native FNIC 드라이버가 타겟에 제대로 로그인하지 못하여 경로가 작동하지 않는 상태로 유지될 수 있습니다.
이 문제는 Cisco Native FNIC 드라이버가 REPORT_LUNS 명령 부분 중에 RSCN을 수신하기 때문에 발생합니다. nfnic 포트 로그인 프로세스 - 이로 인해 드라이버가 중단되고 로그인 프로세스를 다시 시도하지 않습니다. 이는 IBM SVC 및 IBM V7000 어레이 모두에서 관찰되었지만 모두 동일한 소프트웨어 스택을 사용하기 때문에 모든 IBM Storwize 어레이에서도 관찰되었을 것입니다. 이는 IBM이 아닌 어레이에서도 관찰될 수 있습니다. 로그인 중에 드라이버가 전송하는 REPORT_LUNS 명령 중에 RSCN을 실행하는 한 예외입니다.
성능 및 경로 다운/APD 문제는 모두 로 업그레이드하여 해결됩니다. nfnic 4.0.0.63 이상
추가 정보 및 지원은 VMware 및 Cisco에 문의하십시오.
드라이버 버전은 다음에서 찾을 수 있습니다. /commands/localcli_software-vib-list.txt
(드라이버 입력 vib 여기에 이름) (6.x와 7.x에서 가능한 DIF)
PDL(Permanent Device Loss)/APD(All Path Down)
PDL(Permanent Device Loss)
- 데이터 저장소가 Storage 보기에서 사용할 수 없는 것으로 표시됩니다.
- 스토리지 어댑터는 디바이스의 작동 상태를 통신 끊김으로 나타냅니다.
- 디바이스에 대한 모든 경로가 Dead로 표시됩니다.
- 안에
/var/log/vmkernel.log파일에 다음과 유사한 항목이 표시됩니다.
예제
cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0. cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763". cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible. cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0 cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0. cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.
APD(All Path Down)
- 데이터 저장소가 Storage 보기에서 사용할 수 없는 것으로 표시됩니다.
- 스토리지 어댑터는 디바이스의 작동 상태를 데드 또는 오류로 표시합니다.
- 디바이스에 대한 모든 경로가 Dead로 표시됩니다.
- vSphere Client를 사용하여 ESXi 호스트에 직접 연결할 수 없습니다.
- vCenter Server에서 ESXi 호스트가 연결 끊김 상태로 표시됩니다.
- 안에
/var/log/vmkernel.log파일에 유사한 항목이 다음과 같이 표시됩니다.
예제
cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device. cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0 cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...
*다양한 상황에 따른 해결 방법 및 추가 예는 VMware KB#를 확인하십시오*.
**SAN과 ADP/PDL 문제에 대한 조치 항목을 확인해야 함**.
PowerPath
PowerPath가 있는 경우 확인해야 할 몇 가지 추가 사항이 있습니다.
Compatibility - 사용 중인 PowerPath 버전이 실행 중인 ESXi
버전에서 지원되는지 여부이는 ESM에서 확인할 수 있습니다.
인터넷-
PowerPath에서 손실된 경로를 탐지할 때 나타날 수 있는 메시지 유형은 다음과 같습니다.
PowerPath: PowerPath에서 작동하지 않는 경로를 조사하는 방법
NMP 설정
VPLEX를 제외한 대부분의 Dell 어레이*의 경우 라운드 로빈(policy=rr )과 IOPS=1을 사용하는 것이 최상의 성능을 위해 권장됩니다.
이 설정은 성능 또는 레이턴시가 언급될 때 확인해야 합니다.
이 내용은 아래의 그림에서 찾을 수 있습니다. /commands/localcli_storage-nmp-device-list.txt or /json/localcli_storage-nmp-device-list.json
*항상 최신 권장 사항은 최신 호스트 접속 구성 가이드 및 스토리지 모범 사례 가이드를 참조하십시오.
VMware 문서 번호 2069356
기본 1000에서 1로 라운드 로빈 IOPS 제한 조정(2069356)
Dell EMC 호스트 접속 구성 가이드 VMware ESXi Server
Unity - 36페이지
PowerStore - 62페이지
3장 - 페이지 57
NMNP 설정의 예 /commands/localcli_storage-nmp-device-list.txt
잘못된 설정
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1000,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
올바른 설정
naa.6006016051904d00f056b95dc4abd917:
Device Display Name: DGC Fibre Channel Disk (naa.6006016051904d00f056b95dc4abd917)
Storage Array Type: VMW_SATP_ALUA_CX
Storage Array Type Device Config: {navireg=on, ipfilter=on} {implicit_support=on; explicit_support=on; explicit_allow=on; alua_followover=on; action_OnRetryErrors=on; {TPG_id=2,TPG_state=AO}{TPG_id=1,TPG_state=ANO}}
Path Selection Policy: VMW_PSP_RR
Path Selection Policy Device Config: {policy=rr,iops=1,bytes=10485760,useANO=0; lastPathIndex=3: NumIOsPending=0,numBytesPending=0}
Path Selection Policy Device Custom Config:
Working Paths: vmhba1:C0:T1:L10, vmhba0:C0:T0:L10
주의 사항
ESXi 6.7에는 Cisco와 관련된 몇 가지 알려진 문제가 있습니다. nfnic 성능 및 연결 문제를 일으키는 드라이버입니다.
문제가 위의 항목 중 하나와 관련된 경우 Cisco nfnic 드라이버 버전을 확인하고 VMware KB(Knowledgebase)에서 영향을 받는 버전을 확인하십시오.
드라이버 버전은 의 출력에서 찾을 수 있습니다. /commands/localcli_software-vib-list.txt 파일.
추가 정보
다른 팀이 참여해야 하는 경우 다음을 준비해야 합니다.
- 로그(스위치/스토리지)
- 스토리지 SN#
- 문제의 날짜 및 시간
고객이 VMware와 협력하는 데 도움을 요청하는 경우 VMware "문의처" 페이지로 안내합니다.
지원 문의 옵션
Additional Information
알려진 문제 및 해결 방법에 대한 최신 정보는 릴리스 노트 및 CLI 일반 메시지 가이드 등 알려진 문제에 대한 모든 설명서를 참조하십시오.