VxRail : La défaillance d’un seul disque NVMe provoque une défaillance de l’ensemble du cluster VSAN avec des erreurs d’E/S
Summary: La défaillance d’un seul disque NVMe provoque une défaillance de l’ensemble du cluster vSAN avec des erreurs d’E/S.
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
- Version du code VxRail 7.x
- Panne de disque NVMe
- Les événements PDL sont signalés sur hostd.log
2024-05-23T04:49:18.562+0100 info hostd[61598519] [⋮ sub=Hostsvc.VmkVprobSource] VmkVprobSource::Post event: (vim.event.EventEx) {
--> key = 135,
--> chainId = -1,
--> createdTime = "1970-01-01T00:00:00Z",
--> userName = "",
--> host = (vim.event.HostEventArgument) {
--> name = "host.domain.com",
--> host = 'vim.HostSystem:ha-host'
--> },
--> eventTypeId = "esx.problem.vob.vsan.pdl.offline",
--> arguments = (vmodl.KeyAnyValue) [
--> (vmodl.KeyAnyValue) {
--> key = "1",
--> value = "52071875-618f-3f4b-27f5-89ab5d2a9bf6"
--> }
--> ],
--> objectId = "ha-host",
--> objectType = "vim.HostSystem",
--> }
- Les journaux de gestion vSAN signalent les messages « descripteur bloqué »
2024-05-23T04:49:09.355+0100 cpu99:2100019)DOM: DOM2PCPrintDescriptor:2121: [1287682095:0x45dabbe1f140] => Stuck descriptor 2024-05-23T04:49:10.942+0100 cpu122:2100017)DOM: DOM2PCPrintDescriptor:2121: [11772501:0x45dabbf65d40] => Stuck descriptor 2024-05-23T06:02:49.344+0100 cpu73:2100015)DOM: DOM2PCPrintDescriptor:2121: [30274285827:0x45dabbf2a840] => Stuck descriptor
- VMkernel signale des E/S bloquées
2024-05-23T04:49:09.379+0100 cpu43:2099914)DOM: DOM2PCPrintDescriptor:2121: [14235787:0x45bac61c17c0] => Stuck descriptor 2024-05-23T04:50:21.899+0100 cpu20:67978583)ScsiDeviceIO: 12480: Task mgmt request issued to device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C is stuck (WorldID 0, md 0x28, CmdSN 7daf4). Issuing yellow notification to the 2024-05-23T04:50:21.899+0100 cpu20:67978583)ScsiDeviceIO: 12559: FDS_DEV_EVENT_REPORT_STUCK_IO event for device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________016CD616E28EE38C 2024-05-23T04:51:33.949+0100 cpu64:67978582)ScsiDeviceIO: 12527: Task mgmt request issued to device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C is stuck (WorldID 0, md 0x28, CmdSN 7daf4). Issuing red notification to the 2024-05-23T04:51:33.949+0100 cpu64:67978582)ScsiDeviceIO: 12559: FDS_DEV_EVENT_REPORT_STUCK_IO event for device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C
Cause
- Les opérations de mise en veille ne se terminent pas s’il existe des E/S en attente sur le disque.
- Si les E/S sont bloquées, elles ne sont jamais censées se terminer si le pilote n’a pas pu les terminer.
- Avec des E/S bloquées au niveau de la couche de périphérique, et si une opération de mise en veille est lancée en raison d’une gestion des erreurs transitoires, d’une gestion APD ou d’une opération DECOM, la mise en veille ne se termine jamais, car le nettoyage ne se poursuit pas en raison d’E/S bloquées en attente.
- Cela entraîne une condition de concurrence.
Resolution
Le problème est résolu dans ESXi 7.0U3 P09 ou la version la plus récente, qui se trouve dans la version 7.0.520 du code VxRail.
Solution de contournement si l’hôte est affecté :
- Annulez l’enregistrement des machines virtuelles sur les nœuds
- Mettre l’hôte en mode maintenance
- Redémarrez l’hôte.
- Remplacez le disque NVMe si le disque signale une défaillance matérielle.
- Évaluez la mise à niveau comme indiqué ci-dessous pour obtenir un correctif permanent.
Affected Products
VxRail, VxRail Appliance Series, VxRail SoftwareArticle Properties
Article Number: 000225946
Article Type: Solution
Last Modified: 11 Apr 2025
Version: 8
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.