VxRail:vSAN 对象不可访问、磁盘故障、I/O 延迟过长、磁盘整体运行状况为红色
Summary: 请勿在 vSAN 重新同步期间删除磁盘,因为这可能会导致数据丢失。
Symptoms
本文适用于 VxRail 7.x 和 VxRail 8.x 版本。
vSAN 运行状况检查发现磁盘故障,或 vmware-vsan-health-summary-result.log 发现 physdiskoverall 运行状况为红色或黄色。
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red Group physicaldisks health : red Test physdiskoverall health : red DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid (Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log reports:
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times. INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
Cause
vSAN 的 Dying Disk Handling (DDH) 功能通过检测 vSAN 磁盘的过多 I/O 延迟或 vSAN 确定的由于 vSAN 磁盘组中长时间的日志泄漏问题导致的最大日志拥塞来诊断磁盘或磁盘组运行状况。不正常的磁盘或磁盘组被标记为此类,并且磁盘或磁盘组不再用于新的数据放置。
当 DDH 检测到磁盘在监视间隔期间超出 I/O 延迟阈值时,vSAN 会生成 VMkernel 观察 (VOB) 并将消息记录到 vsandevicemonitord.log 文件中的 /var/run/log 目录。下面的日志条目是在完成所需的数据疏散且磁盘处于 疏散状态后必须更换的磁盘的示例:
WARNING - WRITE Average Latency on VSAN device <NAA disk name> has exceeded threshold value <IO latency threshold for disk> us <# of intervals with excessive IO latency> times.
当 DDH 检测到高速缓存层在监视间隔期间出现过度日志拥塞时,vSAN 会生成 VOB 并将日志发送到 vsandevicemonitord.log 文件中的命名冲突。日志拥塞过度的消息采用以下格式:
WARNING - Maximum log congestion on VSAN device <NAA disk name> <current intervals with excessive log congestion>/<intervals required to be unhealthy>
在这两种情况下,vSAN 都会触发从受影响的磁盘或磁盘组中撤出部分或全部数据。vSAN 运行状况监视 UI 中的 “Overall Disks Health”部分报告受影响磁盘或磁盘组的以下任何作状态以及针对用户的建议。疏散完成后的建议会有所不同,具体取决于 vSAN 是否检测到过多的 I/O 延迟或过多的日志拥塞。
Resolution
请参阅 VMware 文章 326878“vSAN
中即将死亡的磁盘处理 (DDH)”(在以下情况下,当 vSAN 重新同步正在进行时,请勿删除或更换磁盘)。 如果这样做,可能会发生数据丢失。
Impending permanent disk failure, data evacuation failed due to insufficient resources (Health state - Red)
或
Impending permanent disk failure, data evacuation failed due to inaccessible objects (Health state - Red)
当对象无法访问时,请勿卸下或更换磁盘。
对象不可访问意味着对象的所有副本都丢失。如果卸下或更换磁盘,这可能会导致数据丢失。
解决方法:
- 与 VMware 接洽
- 如果过多的 I/O 延迟导致容量磁盘运行状况不佳,请通过重新装载来恢复磁盘。重新装载磁盘不会更改磁盘的 vSAN UUID。
esxcli vsan storage diskgroup unmount -u <disk group UUID> esxcli vsan storage diskgroup mount -u <disk group UUID>