VxRail: Один несправний NVMe-диск призводить до збою всього кластера VSAN з помилками вводу-виводу

Summary: Один несправний NVMe-диск призводить до помилок вводу-виводу всього кластера vSAN.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • Версія коду VxRail 7.x
  • Вихід з ладу NVMe диска
  • Про події МФО повідомляють на hostd.log
2024-05-23T04:49:18.562+0100 info hostd[61598519] [⋮ sub=Hostsvc.VmkVprobSource] VmkVprobSource::Post event: (vim.event.EventEx) {
-->    key = 135,
-->    chainId = -1,
-->    createdTime = "1970-01-01T00:00:00Z",
-->    userName = "",
-->    host = (vim.event.HostEventArgument) {
-->       name = "host.domain.com",
-->       host = 'vim.HostSystem:ha-host'
-->    },
-->    eventTypeId = "esx.problem.vob.vsan.pdl.offline",
-->    arguments = (vmodl.KeyAnyValue) [
-->       (vmodl.KeyAnyValue) {
-->          key = "1",
-->          value = "52071875-618f-3f4b-27f5-89ab5d2a9bf6"
-->       }
-->    ],
-->    objectId = "ha-host",
-->    objectType = "vim.HostSystem",
--> }
 
  • Звіти керівництва vSAN про повідомлення "Застряглий дескриптор"
2024-05-23T04:49:09.355+0100 cpu99:2100019)DOM: DOM2PCPrintDescriptor:2121: [1287682095:0x45dabbe1f140] => Stuck descriptor
2024-05-23T04:49:10.942+0100 cpu122:2100017)DOM: DOM2PCPrintDescriptor:2121: [11772501:0x45dabbf65d40] => Stuck descriptor
2024-05-23T06:02:49.344+0100 cpu73:2100015)DOM: DOM2PCPrintDescriptor:2121: [30274285827:0x45dabbf2a840] => Stuck descriptor
 
  • Звіти VMkernel про зависання вводу-виводу
2024-05-23T04:49:09.379+0100 cpu43:2099914)DOM: DOM2PCPrintDescriptor:2121: [14235787:0x45bac61c17c0] => Stuck descriptor
2024-05-23T04:50:21.899+0100 cpu20:67978583)ScsiDeviceIO: 12480: Task mgmt request issued to device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C is stuck (WorldID 0,
md 0x28, CmdSN 7daf4). Issuing yellow notification to the
2024-05-23T04:50:21.899+0100 cpu20:67978583)ScsiDeviceIO: 12559: FDS_DEV_EVENT_REPORT_STUCK_IO event for device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________016CD616E28EE38C
2024-05-23T04:51:33.949+0100 cpu64:67978582)ScsiDeviceIO: 12527: Task mgmt request issued to device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C is stuck (WorldID 0,
md 0x28, CmdSN 7daf4). Issuing red notification to the
2024-05-23T04:51:33.949+0100 cpu64:67978582)ScsiDeviceIO: 12559: FDS_DEV_EVENT_REPORT_STUCK_IO event for device t10.NVMe____Dell_Ent_NVMe_CM6_RI_7.68TB_____________0XXXXXXXXXEE38C

Cause

  • Операції спокою не завершуються, якщо на диску є незавершені введення-виведення.
  • Якщо є завислі IO, ніколи не очікується, що вони завершаться, якщо водій не зміг завершити IO.
  • З STUCK введеннями-виведеннями на рівні пристрою, і якщо операція спокою ініціюється через обробку перехідних помилок або обробку APD або будь-яку операцію DECOM, затишшя ніколи не завершується, оскільки очищення не відбувається через незавершені ЗАСТРЯГЛІ IO.
  • Це спричиняє стан перегонів.

 

Resolution

Проблему вирішено в ESXi 7.0U3 P09 або новішій, яка є у версії випуску коду VxRail 7.0.520.

Спосіб вирішення, якщо це вплинуло на хост:

  1. Скасуйте реєстрацію віртуальних машин на вузлах
  2. Переведення хоста в режим обслуговування
  3. Перезавантажте хост.
  4. Замініть диск NVMe, якщо диск повідомляє про вихід з ладу HW.
  5. Оцініть оновлення, як показано нижче, щоб отримати остаточне виправлення.

Affected Products

VxRail, VxRail Appliance Series, VxRail Software
Article Properties
Article Number: 000225946
Article Type: Solution
Last Modified: 11 Apr 2025
Version:  8
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.