VxRail: 장애가 발생한 NVMe 디스크 하나가 전체 VSAN 클러스터에 장애가 발생하고 IO 오류가 발생함
Summary: 장애가 발생한 NVMe 디스크 하나가 전체 vSAN 클러스터에 장애가 발생하고 IO 오류가 발생합니다.
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
- VxRail 7.x 코드 버전
- NVMe 디스크 장애
- PDL 이벤트는 hostd.log에 보고됩니다.
2024-05-23T04:49:18.562+0100 info hostd[61598519] [⋮ sub=Hostsvc.VmkVprobSource] VmkVprobSource::Post event: (vim.event.EventEx) {
--> key = 135,
--> chainId = -1,
--> createdTime = "1970-01-01T00:00:00Z",
--> userName = "",
--> host = (vim.event.HostEventArgument) {
--> name = "host.domain.com",
--> host = 'vim.HostSystem:ha-host'
--> },
--> eventTypeId = "esx.problem.vob.vsan.pdl.offline",
--> arguments = (vmodl.KeyAnyValue) [
--> (vmodl.KeyAnyValue) {
--> key = "1",
--> value = "52071875-618f-3f4b-27f5-89ab5d2a9bf6"
--> }
--> ],
--> objectId = "ha-host",
--> objectType = "vim.HostSystem",
--> }
- vSAN 관리 로그에서 "Stuck Descriptor" 메시지 보고
2024-05-23T04:49:09.355+0100 cpu99:2100019)DOM: DOM2PCPrintDescriptor:2121: [1287682095:0x45dabbe1f140] => Stuck descriptor 2024-05-23T04:49:10.942+0100 cpu122:2100017)DOM: DOM2PCPrintDescriptor:2121: [11772501:0x45dabbf65d40] => Stuck descriptor 2024-05-23T06:02:49.344+0100 cpu73:2100015)DOM: DOM2PCPrintDescriptor:2121: [30274285827:0x45dabbf2a840] => Stuck descriptor
- VMkernel이 중단된 IO를 보고함
2024-05-23T04:49:09.379+0100 cpu43:2099914)DOM: DOM2PCPrintDescriptor:2121: [14235787:0x45bac61c17c0] => Stuck descriptor 2024-05-23T04:50:21.899+0100 cpu20:67978583)ScsiDeviceIO: 12480: Task mgmt request issued to device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C is stuck (WorldID 0, md 0x28, CmdSN 7daf4). Issuing yellow notification to the 2024-05-23T04:50:21.899+0100 cpu20:67978583)ScsiDeviceIO: 12559: FDS_DEV_EVENT_REPORT_STUCK_IO event for device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________016CD616E28EE38C 2024-05-23T04:51:33.949+0100 cpu64:67978582)ScsiDeviceIO: 12527: Task mgmt request issued to device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C is stuck (WorldID 0, md 0x28, CmdSN 7daf4). Issuing red notification to the 2024-05-23T04:51:33.949+0100 cpu64:67978582)ScsiDeviceIO: 12559: FDS_DEV_EVENT_REPORT_STUCK_IO event for device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C
Cause
- 디스크에 보류 중인 I/O가 있는 경우 중지 작업이 완료되지 않습니다.
- 중단된 IO가 있는 경우 드라이버가 IO를 완료할 수 없는 경우 IO가 완료되지 않을 것으로 예상됩니다.
- 디바이스 계층에 스턱 IO가 있고 일시적 오류 처리, APD 처리 또는 DECOM 작업으로 인해 중지 작업이 시작된 경우, 보류 중인 STUCK IO로 인해 정리가 진행되지 않으므로 중지가 완료되지 않습니다.
- 이로 인해 경합 상태가 발생합니다.
Resolution
이 문제는 VxRail 코드 릴리스 버전 7.0.520에 들어 있는 ESXi 7.0U3 P09 이상에서 해결되었습니다.
호스트가 영향을 받는 경우 해결 방법:
- 노드에서 가상 머신 등록 취소
- 호스트를 유지 보수 모드로 전환
- 호스트를 재부팅합니다.
- 디스크에서 HW 장애가 보고되면 NVMe 디스크를 교체합니다.
- 영구적인 수정을 위해 아래와 같이 업그레이드를 평가하십시오.
Affected Products
VxRail, VxRail Appliance Series, VxRail SoftwareArticle Properties
Article Number: 000225946
Article Type: Solution
Last Modified: 11 Apr 2025
Version: 8
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.