VxRail: Én enkelt NVMe-disk med feil fører til at hele VSAN-klyngen feiler med I/O-feil

Summary: Én enkelt NVMe-disk med feil fører til at hele vSAN-klyngen mislyktes med I/O-feil.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • VxRail 7.x-kodeversjon
  • Feil på NVMe-disk
  • PDL-hendelser rapporteres på hostd.log
2024-05-23T04:49:18.562+0100 info hostd[61598519] [⋮ sub=Hostsvc.VmkVprobSource] VmkVprobSource::Post event: (vim.event.EventEx) {
-->    key = 135,
-->    chainId = -1,
-->    createdTime = "1970-01-01T00:00:00Z",
-->    userName = "",
-->    host = (vim.event.HostEventArgument) {
-->       name = "host.domain.com",
-->       host = 'vim.HostSystem:ha-host'
-->    },
-->    eventTypeId = "esx.problem.vob.vsan.pdl.offline",
-->    arguments = (vmodl.KeyAnyValue) [
-->       (vmodl.KeyAnyValue) {
-->          key = "1",
-->          value = "52071875-618f-3f4b-27f5-89ab5d2a9bf6"
-->       }
-->    ],
-->    objectId = "ha-host",
-->    objectType = "vim.HostSystem",
--> }
 
  • vSAN-administrasjonslogger rapporterer meldinger om fast beskrivelse
2024-05-23T04:49:09.355+0100 cpu99:2100019)DOM: DOM2PCPrintDescriptor:2121: [1287682095:0x45dabbe1f140] => Stuck descriptor
2024-05-23T04:49:10.942+0100 cpu122:2100017)DOM: DOM2PCPrintDescriptor:2121: [11772501:0x45dabbf65d40] => Stuck descriptor
2024-05-23T06:02:49.344+0100 cpu73:2100015)DOM: DOM2PCPrintDescriptor:2121: [30274285827:0x45dabbf2a840] => Stuck descriptor
 
  • VMkernel reports stuck IO
2024-05-23T04:49:09.379+0100 cpu43:2099914)DOM: DOM2PCPrintDescriptor:2121: [14235787:0x45bac61c17c0] => Stuck descriptor
2024-05-23T04:50:21.899+0100 cpu20:67978583)ScsiDeviceIO: 12480: Task mgmt request issued to device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C is stuck (WorldID 0,
md 0x28, CmdSN 7daf4). Issuing yellow notification to the
2024-05-23T04:50:21.899+0100 cpu20:67978583)ScsiDeviceIO: 12559: FDS_DEV_EVENT_REPORT_STUCK_IO event for device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________016CD616E28EE38C
2024-05-23T04:51:33.949+0100 cpu64:67978582)ScsiDeviceIO: 12527: Task mgmt request issued to device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C is stuck (WorldID 0,
md 0x28, CmdSN 7daf4). Issuing red notification to the
2024-05-23T04:51:33.949+0100 cpu64:67978582)ScsiDeviceIO: 12559: FDS_DEV_EVENT_REPORT_STUCK_IO event for device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C

Cause

  • Quiesce-operasjoner fullføres ikke hvis det finnes ventende I/O-er på disken.
  • Hvis det sitter fast i I/O-er, forventes det aldri at IO-er fullføres noen ganger hvis sjåføren ikke kunne fullføre IO-ene.
  • Med STUCK IO-er på enhetslaget, og hvis en hvileoperasjon startes på grunn av forbigående feilhåndtering eller APD-håndtering eller en DECOM-operasjon, fullføres aldri stillheten ettersom oppryddingen ikke fortsetter på grunn av ventende STUCK IO-er.
  • Dette medfører en kappløpstilstand.

 

Resolution

Problemet er løst i ESXi 7.0U3 P09 eller nyeste, som er i VxRail-kodeversjon 7.0.520.

Løsning hvis verten er berørt:

  1. Avregistrer de virtuelle maskinene på nodene
  2. Sett verten i vedlikeholdsmodus
  3. Start verten på nytt.
  4. Bytt ut NVMe-disken hvis disken rapporterer om HW-feil.
  5. Evaluer oppgraderingen som nedenfor for en permanent løsning.

Affected Products

VxRail, VxRail Appliance Series, VxRail Software
Article Properties
Article Number: 000225946
Article Type: Solution
Last Modified: 11 Apr 2025
Version:  8
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.