VxRail:vSAN 物件無法存取、磁碟作業失敗、I/O 延遲過多、磁碟整體執行狀況為紅色
摘要: 請勿在 vSAN 重新同步期間移除磁碟,這麼做可能會導致資料遺失。
症狀
本文適用於 VxRail 7.x 和 VxRail 8.x 版本。
vSAN 執行狀況檢查發現磁碟故障,或 vmware-vsan-health-summary-result.log 發現 physdiskoverall 健康狀況為紅色或黃色。
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red Group physicaldisks health : red Test physdiskoverall health : red DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid (Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log reports:
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times. INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
原因
vSAN 的即將結束的磁碟處理 (DDH) 功能可藉由偵測 vSAN 磁碟的過長 I/O 延遲或 vSAN 判定為因長時間 vSAN 磁碟群組中的記錄洩漏問題造成的最大記錄壅塞,來診斷磁碟或磁碟群組的健全狀況。狀況不良的磁碟或磁碟群組會這樣標示,且磁碟或磁碟群組將不再用於新的資料放置。
當 DDH 偵測到磁碟在監控期間已超過 I/O 延遲閾值時,vSAN 會產生 VMkernel 觀察 (VOB),並將訊息記錄至 vsandevicemonitord.log 檔案在 /var/run/log 目錄。以下記錄項目為一個磁碟範例,必須在完成所需的資料撤除後進行更換,且磁碟處於 撤除狀態:
WARNING - WRITE Average Latency on VSAN device <NAA disk name> has exceeded threshold value <IO latency threshold for disk> us <# of intervals with excessive IO latency> times.
當 DDH 偵測到快取層在監控期間發生過多的記錄壅塞時,vSAN 會產生 VOB,並記錄至 vsandevicemonitord.log 檔案。過多記錄壅塞訊息格式如下:
WARNING - Maximum log congestion on VSAN device <NAA disk name> <current intervals with excessive log congestion>/<intervals required to be unhealthy>
在這兩種情況下,vSAN 會觸發從受影響的磁碟或磁碟組撤除部分或全部數據。vSAN 執行狀況監控 UI 中 的整體磁碟健全狀況區段會報告受影響磁碟或磁碟群組的下列任何作業狀態,同時為使用者提供建議。撤除完成後的建議會有所不同,取決於 vSAN 是否偵測到過多的 I/O 延遲或過多的記錄壅塞。
解析度
請參閱 VMware 文章 326878,vSAN
中的死亡磁碟處理 (DDH)在以下情況下,vSAN 重新同步正在進行時,請勿移除或更換磁碟。 如果這樣做,可能會發生數據丟失。
Impending permanent disk failure, data evacuation failed due to insufficient resources (Health state - Red)
或
Impending permanent disk failure, data evacuation failed due to inaccessible objects (Health state - Red)
無法存取物件時,請勿移除或更換磁碟。
物件無法訪問意味著物件的所有副本都丟失。如果您移除或更換磁碟,可能會導致資料遺失。
因應措施:
- 聯絡 VMware
- 如果 I/O 延遲過多,導致容量磁碟不健全狀態,請重新掛接以復原磁碟。重新掛接磁碟並不會變更磁碟的 vSAN UUID。
esxcli vsan storage diskgroup unmount -u <disk group UUID> esxcli vsan storage diskgroup mount -u <disk group UUID>