VxRail: Eine einzige ausgefallene NVMe-Festplatte führt dazu, dass das gesamte vSAN-Cluster mit IO-Fehlern ausfällt

Summary: Eine einzige ausgefallene NVMe-Festplatte führt dazu, dass der gesamte vSAN-Cluster mit IO-Fehlern ausfällt.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • VxRail 7.x-Codeversion
  • NVMe-Festplattenausfall
  • PDL-Ereignisse werden auf hostd.log gemeldet
2024-05-23T04:49:18.562+0100 info hostd[61598519] [⋮ sub=Hostsvc.VmkVprobSource] VmkVprobSource::Post event: (vim.event.EventEx) {
-->    key = 135,
-->    chainId = -1,
-->    createdTime = "1970-01-01T00:00:00Z",
-->    userName = "",
-->    host = (vim.event.HostEventArgument) {
-->       name = "host.domain.com",
-->       host = 'vim.HostSystem:ha-host'
-->    },
-->    eventTypeId = "esx.problem.vob.vsan.pdl.offline",
-->    arguments = (vmodl.KeyAnyValue) [
-->       (vmodl.KeyAnyValue) {
-->          key = "1",
-->          value = "52071875-618f-3f4b-27f5-89ab5d2a9bf6"
-->       }
-->    ],
-->    objectId = "ha-host",
-->    objectType = "vim.HostSystem",
--> }
 
  • vSAN-Managementprotokolle melden "Stuck Descriptor"-Meldungen
2024-05-23T04:49:09.355+0100 cpu99:2100019)DOM: DOM2PCPrintDescriptor:2121: [1287682095:0x45dabbe1f140] => Stuck descriptor
2024-05-23T04:49:10.942+0100 cpu122:2100017)DOM: DOM2PCPrintDescriptor:2121: [11772501:0x45dabbf65d40] => Stuck descriptor
2024-05-23T06:02:49.344+0100 cpu73:2100015)DOM: DOM2PCPrintDescriptor:2121: [30274285827:0x45dabbf2a840] => Stuck descriptor
 
  • VMkernel meldet steckengebliebene IOs
2024-05-23T04:49:09.379+0100 cpu43:2099914)DOM: DOM2PCPrintDescriptor:2121: [14235787:0x45bac61c17c0] => Stuck descriptor
2024-05-23T04:50:21.899+0100 cpu20:67978583)ScsiDeviceIO: 12480: Task mgmt request issued to device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C is stuck (WorldID 0,
md 0x28, CmdSN 7daf4). Issuing yellow notification to the
2024-05-23T04:50:21.899+0100 cpu20:67978583)ScsiDeviceIO: 12559: FDS_DEV_EVENT_REPORT_STUCK_IO event for device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________016CD616E28EE38C
2024-05-23T04:51:33.949+0100 cpu64:67978582)ScsiDeviceIO: 12527: Task mgmt request issued to device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C is stuck (WorldID 0,
md 0x28, CmdSN 7daf4). Issuing red notification to the
2024-05-23T04:51:33.949+0100 cpu64:67978582)ScsiDeviceIO: 12559: FDS_DEV_EVENT_REPORT_STUCK_IO event for device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C

Cause

  • Stilllegungsvorgänge werden nicht abgeschlossen, wenn ausstehende IOs auf der Festplatte vorhanden sind.
  • Wenn IOs hängen bleiben, wird nie erwartet, dass IOs abgeschlossen werden, wenn der Treiber die IOs manchmal nicht abschließen konnte.
  • Bei Stuck-IOs auf Geräteebene und wenn ein Stilllegungsvorgang aufgrund einer vorübergehenden Fehlerbehandlung oder APD-Handhabung oder eines DECOM-Vorgangs initiiert wird, wird die Stilllegung nie abgeschlossen, da die Bereinigung aufgrund ausstehender Stuck-IOs nicht fortgesetzt wird.
  • Dies führt zu einer Race-Bedingung.

 

Resolution

Das Problem wurde in ESXi 7.0U3 P09 oder höher behoben, das in der VxRail-Codeversion 7.0.520 enthalten ist.

Problemumgehung, wenn der Host betroffen ist:

  1. Aufheben der Registrierung der virtuellen Maschinen auf den Nodes
  2. Versetzen des Hosts in den Wartungsmodus
  3. Starten Sie den Host neu.
  4. Ersetzen Sie die NVMe-Festplatte, wenn die Festplatte einen Hardwareausfall meldet.
  5. Bewerten Sie das Upgrade wie unten beschrieben, um eine dauerhafte Lösung zu finden.

Affected Products

VxRail, VxRail Appliance Series, VxRail Software
Article Properties
Article Number: 000225946
Article Type: Solution
Last Modified: 11 Apr 2025
Version:  8
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.