VxRail: Eine einzige ausgefallene NVMe-Festplatte führt dazu, dass das gesamte vSAN-Cluster mit IO-Fehlern ausfällt
Summary: Eine einzige ausgefallene NVMe-Festplatte führt dazu, dass der gesamte vSAN-Cluster mit IO-Fehlern ausfällt.
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
- VxRail 7.x-Codeversion
- NVMe-Festplattenausfall
- PDL-Ereignisse werden auf hostd.log gemeldet
2024-05-23T04:49:18.562+0100 info hostd[61598519] [⋮ sub=Hostsvc.VmkVprobSource] VmkVprobSource::Post event: (vim.event.EventEx) {
--> key = 135,
--> chainId = -1,
--> createdTime = "1970-01-01T00:00:00Z",
--> userName = "",
--> host = (vim.event.HostEventArgument) {
--> name = "host.domain.com",
--> host = 'vim.HostSystem:ha-host'
--> },
--> eventTypeId = "esx.problem.vob.vsan.pdl.offline",
--> arguments = (vmodl.KeyAnyValue) [
--> (vmodl.KeyAnyValue) {
--> key = "1",
--> value = "52071875-618f-3f4b-27f5-89ab5d2a9bf6"
--> }
--> ],
--> objectId = "ha-host",
--> objectType = "vim.HostSystem",
--> }
- vSAN-Managementprotokolle melden "Stuck Descriptor"-Meldungen
2024-05-23T04:49:09.355+0100 cpu99:2100019)DOM: DOM2PCPrintDescriptor:2121: [1287682095:0x45dabbe1f140] => Stuck descriptor 2024-05-23T04:49:10.942+0100 cpu122:2100017)DOM: DOM2PCPrintDescriptor:2121: [11772501:0x45dabbf65d40] => Stuck descriptor 2024-05-23T06:02:49.344+0100 cpu73:2100015)DOM: DOM2PCPrintDescriptor:2121: [30274285827:0x45dabbf2a840] => Stuck descriptor
- VMkernel meldet steckengebliebene IOs
2024-05-23T04:49:09.379+0100 cpu43:2099914)DOM: DOM2PCPrintDescriptor:2121: [14235787:0x45bac61c17c0] => Stuck descriptor 2024-05-23T04:50:21.899+0100 cpu20:67978583)ScsiDeviceIO: 12480: Task mgmt request issued to device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C is stuck (WorldID 0, md 0x28, CmdSN 7daf4). Issuing yellow notification to the 2024-05-23T04:50:21.899+0100 cpu20:67978583)ScsiDeviceIO: 12559: FDS_DEV_EVENT_REPORT_STUCK_IO event for device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________016CD616E28EE38C 2024-05-23T04:51:33.949+0100 cpu64:67978582)ScsiDeviceIO: 12527: Task mgmt request issued to device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C is stuck (WorldID 0, md 0x28, CmdSN 7daf4). Issuing red notification to the 2024-05-23T04:51:33.949+0100 cpu64:67978582)ScsiDeviceIO: 12559: FDS_DEV_EVENT_REPORT_STUCK_IO event for device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C
Cause
- Stilllegungsvorgänge werden nicht abgeschlossen, wenn ausstehende IOs auf der Festplatte vorhanden sind.
- Wenn IOs hängen bleiben, wird nie erwartet, dass IOs abgeschlossen werden, wenn der Treiber die IOs manchmal nicht abschließen konnte.
- Bei Stuck-IOs auf Geräteebene und wenn ein Stilllegungsvorgang aufgrund einer vorübergehenden Fehlerbehandlung oder APD-Handhabung oder eines DECOM-Vorgangs initiiert wird, wird die Stilllegung nie abgeschlossen, da die Bereinigung aufgrund ausstehender Stuck-IOs nicht fortgesetzt wird.
- Dies führt zu einer Race-Bedingung.
Resolution
Das Problem wurde in ESXi 7.0U3 P09 oder höher behoben, das in der VxRail-Codeversion 7.0.520 enthalten ist.
Problemumgehung, wenn der Host betroffen ist:
- Aufheben der Registrierung der virtuellen Maschinen auf den Nodes
- Versetzen des Hosts in den Wartungsmodus
- Starten Sie den Host neu.
- Ersetzen Sie die NVMe-Festplatte, wenn die Festplatte einen Hardwareausfall meldet.
- Bewerten Sie das Upgrade wie unten beschrieben, um eine dauerhafte Lösung zu finden.
Affected Products
VxRail, VxRail Appliance Series, VxRail SoftwareArticle Properties
Article Number: 000225946
Article Type: Solution
Last Modified: 11 Apr 2025
Version: 8
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.