VxRail: объект vSAN недоступен, сбой диска, чрезмерная задержка ввода-вывода, общее состояние диска красное
Summary: Не удаляйте диски во время повторной синхронизации vSAN, так как это может привести к потере данных.
Symptoms
Эта статья относится как к версиям VxRail 7.x, так и к VxRail 8.x.
Служба диагностики vSAN обнаружила сбой диска, или vmware-vsan-health-summary-result.log Находит physdiskoverall Здоровье красное или желтое.
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red Group physicaldisks health : red Test physdiskoverall health : red DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid (Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log reports:
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times. INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
Cause
Функция обработки умирающих дисков (DDH) vSAN диагностирует работоспособность диска или группы дисков, определяя чрезмерную задержку ввода-вывода для диска vSAN или максимальную перегрузку журнала, которая, по мнению vSAN, вызвана проблемами утечки журналов в группе дисков vSAN в течение длительного периода времени. Неработоспособные диски или группы дисков помечаются соответствующим образом, и диски или группы дисков больше не используются для размещения новых данных.
Когда DDH обнаруживает, что диск превысил пороговое значение задержки ввода-вывода в течение интервала мониторинга, vSAN создает наблюдение VMkernel (VOB) и записывает сообщение в vsandevicemonitord.log file в папке /var/run/log . Ниже приведен пример записи журнала для диска, который необходимо заменить, когда требуется эвакуация данных завершена и диск находится в состоянии переноса:
WARNING - WRITE Average Latency on VSAN device <NAA disk name> has exceeded threshold value <IO latency threshold for disk> us <# of intervals with excessive IO latency> times.
Когда DDH обнаруживает, что уровень кэширования имеет чрезмерную перегрузку журналов в течение интервала мониторинга, vSAN создает VOB и журнал в vsandevicemonitord.log . Сообщения об избыточной перегрузке журналов имеют следующий формат.
WARNING - Maximum log congestion on VSAN device <NAA disk name> <current intervals with excessive log congestion>/<intervals required to be unhealthy>
В обеих ситуациях vSAN инициирует эвакуацию некоторых или всех данных из затронутых дисков или групп дисков. В разделе «Общее состояние дисков» в пользовательском интерфейсе мониторинга работоспособности vSAN сообщается о любом из следующих рабочих состояний для затронутого диска или группы дисков, а также даны рекомендации для пользователя. Рекомендации после завершения эвакуации различаются в зависимости от того, обнаружила ли vSAN чрезмерную задержку ввода-вывода или чрезмерную перегрузку журналов.
Resolution
См. статью VMware 326878, Обработка умирающих дисков (DDH) в vSAN
Не извлекайте и не заменяйте диск во время выполнения повторной синхронизации vSAN. В этом случае возможна потеря данных.
Impending permanent disk failure, data evacuation failed due to insufficient resources (Health state - Red)
или
Impending permanent disk failure, data evacuation failed due to inaccessible objects (Health state - Red)
Не извлекайте и не заменяйте диск, если объект недоступен.
Объект недоступен означает, что все копии объекта отсутствуют. Удаление или замена диска может привести к потере данных.
Временное решение.
- Взаимодействие с VMware
- Если чрезмерная задержка ввода-вывода привела к неработоспособному состоянию диска емкости, восстановите диск путем повторного монтирования. Повторное монтирование диска не приводит к изменению UUID vSAN диска.
esxcli vsan storage diskgroup unmount -u <disk group UUID> esxcli vsan storage diskgroup mount -u <disk group UUID>