VxRail: Un singolo disco NVMe guasto causa un guasto dell'intero cluster VSAN con errori di I/O

Summary: Un singolo disco NVMe guasto causa un guasto dell'intero cluster vSAN con errori di I/O.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • Versione del codice VxRail 7.x
  • Guasto del disco NVMe
  • Gli eventi PDL vengono segnalati nel hostd.log
2024-05-23T04:49:18.562+0100 info hostd[61598519] [⋮ sub=Hostsvc.VmkVprobSource] VmkVprobSource::Post event: (vim.event.EventEx) {
-->    key = 135,
-->    chainId = -1,
-->    createdTime = "1970-01-01T00:00:00Z",
-->    userName = "",
-->    host = (vim.event.HostEventArgument) {
-->       name = "host.domain.com",
-->       host = 'vim.HostSystem:ha-host'
-->    },
-->    eventTypeId = "esx.problem.vob.vsan.pdl.offline",
-->    arguments = (vmodl.KeyAnyValue) [
-->       (vmodl.KeyAnyValue) {
-->          key = "1",
-->          value = "52071875-618f-3f4b-27f5-89ab5d2a9bf6"
-->       }
-->    ],
-->    objectId = "ha-host",
-->    objectType = "vim.HostSystem",
--> }
 
  • I registri di gestione vSAN segnalano messaggi "Bloccando il descrittore"
2024-05-23T04:49:09.355+0100 cpu99:2100019)DOM: DOM2PCPrintDescriptor:2121: [1287682095:0x45dabbe1f140] => Stuck descriptor
2024-05-23T04:49:10.942+0100 cpu122:2100017)DOM: DOM2PCPrintDescriptor:2121: [11772501:0x45dabbf65d40] => Stuck descriptor
2024-05-23T06:02:49.344+0100 cpu73:2100015)DOM: DOM2PCPrintDescriptor:2121: [30274285827:0x45dabbf2a840] => Stuck descriptor
 
  • VMkernel segnala I/O bloccato
2024-05-23T04:49:09.379+0100 cpu43:2099914)DOM: DOM2PCPrintDescriptor:2121: [14235787:0x45bac61c17c0] => Stuck descriptor
2024-05-23T04:50:21.899+0100 cpu20:67978583)ScsiDeviceIO: 12480: Task mgmt request issued to device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C is stuck (WorldID 0,
md 0x28, CmdSN 7daf4). Issuing yellow notification to the
2024-05-23T04:50:21.899+0100 cpu20:67978583)ScsiDeviceIO: 12559: FDS_DEV_EVENT_REPORT_STUCK_IO event for device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________016CD616E28EE38C
2024-05-23T04:51:33.949+0100 cpu64:67978582)ScsiDeviceIO: 12527: Task mgmt request issued to device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C is stuck (WorldID 0,
md 0x28, CmdSN 7daf4). Issuing red notification to the
2024-05-23T04:51:33.949+0100 cpu64:67978582)ScsiDeviceIO: 12559: FDS_DEV_EVENT_REPORT_STUCK_IO event for device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C

Cause

  • Le operazioni di disattivazione non vengono completate se sono presenti I/O in sospeso sul disco.
  • Se sono presenti I/O bloccati, a volte non è mai previsto il completamento degli I/O se il driver non è riuscito a completarli.
  • Con I/O BLOCCATI a livello di dispositivo e se viene avviata un'operazione di disattivazione a causa della gestione di errori temporanei o della gestione APD o di qualsiasi operazione DECOM, la disattivazione non viene mai completata poiché la pulizia non procede a causa di I/O STUCK in sospeso.
  • Ciò causa una race condition.

 

Resolution

Il problema è stato risolto in ESXi 7.0U3 P09 o versione più recente, ovvero nella versione 7.0.520 del codice VxRail.

Soluzione alternativa in caso di impatto sull'host:

  1. Annullamento della registrazione delle macchine virtuali sui nodi
  2. Attivazione della modalità di manutenzione dell host
  3. Riavviare l'host.
  4. Sostituire il disco NVMe se il disco segnala un errore hardware.
  5. Valutare l'upgrade come indicato di seguito per una correzione permanente.

Affected Products

VxRail, VxRail Appliance Series, VxRail Software
Article Properties
Article Number: 000225946
Article Type: Solution
Last Modified: 11 Apr 2025
Version:  8
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.