VxRail: Pojedynczy awaria dysku NVMe powoduje awarię całego klastra VSAN z błędami we/wy
Summary: Awaria pojedynczego dysku NVMe powoduje awarię całego klastra vSAN z błędami we/wy.
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
- Wersja kodu VxRail 7.x
- Awaria dysku NVMe
- Zdarzenia PDL są zgłaszane w hostd.log
2024-05-23T04:49:18.562+0100 info hostd[61598519] [⋮ sub=Hostsvc.VmkVprobSource] VmkVprobSource::Post event: (vim.event.EventEx) {
--> key = 135,
--> chainId = -1,
--> createdTime = "1970-01-01T00:00:00Z",
--> userName = "",
--> host = (vim.event.HostEventArgument) {
--> name = "host.domain.com",
--> host = 'vim.HostSystem:ha-host'
--> },
--> eventTypeId = "esx.problem.vob.vsan.pdl.offline",
--> arguments = (vmodl.KeyAnyValue) [
--> (vmodl.KeyAnyValue) {
--> key = "1",
--> value = "52071875-618f-3f4b-27f5-89ab5d2a9bf6"
--> }
--> ],
--> objectId = "ha-host",
--> objectType = "vim.HostSystem",
--> }
- Dzienniki zarządzania vSAN zgłaszają komunikaty "Stuck Descriptor"
2024-05-23T04:49:09.355+0100 cpu99:2100019)DOM: DOM2PCPrintDescriptor:2121: [1287682095:0x45dabbe1f140] => Stuck descriptor 2024-05-23T04:49:10.942+0100 cpu122:2100017)DOM: DOM2PCPrintDescriptor:2121: [11772501:0x45dabbf65d40] => Stuck descriptor 2024-05-23T06:02:49.344+0100 cpu73:2100015)DOM: DOM2PCPrintDescriptor:2121: [30274285827:0x45dabbf2a840] => Stuck descriptor
- VMkernel zgłasza zablokowane operacje we/wy
2024-05-23T04:49:09.379+0100 cpu43:2099914)DOM: DOM2PCPrintDescriptor:2121: [14235787:0x45bac61c17c0] => Stuck descriptor 2024-05-23T04:50:21.899+0100 cpu20:67978583)ScsiDeviceIO: 12480: Task mgmt request issued to device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C is stuck (WorldID 0, md 0x28, CmdSN 7daf4). Issuing yellow notification to the 2024-05-23T04:50:21.899+0100 cpu20:67978583)ScsiDeviceIO: 12559: FDS_DEV_EVENT_REPORT_STUCK_IO event for device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________016CD616E28EE38C 2024-05-23T04:51:33.949+0100 cpu64:67978582)ScsiDeviceIO: 12527: Task mgmt request issued to device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C is stuck (WorldID 0, md 0x28, CmdSN 7daf4). Issuing red notification to the 2024-05-23T04:51:33.949+0100 cpu64:67978582)ScsiDeviceIO: 12559: FDS_DEV_EVENT_REPORT_STUCK_IO event for device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C
Cause
- Operacje stanu spoczynku nie są kończone, jeśli na dysku znajdują się oczekujące operacje we/wy.
- Jeśli operacje we/wy są zablokowane, nigdy nie oczekuje się, że zostaną ukończone, jeśli sterownik nie mógł ukończyć operacji we/wy.
- W przypadku zablokowanych operacji we/wy w warstwie urządzenia oraz jeśli operacja stanu spoczynku zostanie zainicjowana z powodu obsługi błędów przejściowych, obsługi APD lub dowolnej operacji DECOM, stan spoczynku nigdy się nie kończy, ponieważ czyszczenie nie jest kontynuowane z powodu oczekujących operacji we/wy STUCK IO.
- Powoduje to stan wyścigu.
Resolution
Problem został rozwiązany w oprogramowaniu ESXi 7.0U3 P09 lub nowszej, czyli w wersji kodu VxRail 7.0.520.
Obejście problemu, jeśli problem dotyczy hosta:
- Wyrejestrowanie maszyn wirtualnych w węzłach
- Przełącz hosta w tryb konserwacji
- Uruchom ponownie hosta.
- Wymień dysk NVMe, jeśli dysk zgłasza awarię sprzętu.
- Oceń uaktualnienie, jak poniżej, aby uzyskać trwałą poprawkę.
Affected Products
VxRail, VxRail Appliance Series, VxRail SoftwareArticle Properties
Article Number: 000225946
Article Type: Solution
Last Modified: 11 Apr 2025
Version: 8
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.