本文針對具備 PERC 控制器之 PowerEdge 伺服器 HDD 損毀磁區提供故障診斷步驟。特別是在無法備份的情況下,下列資訊可能有助於將受影響的虛擬磁碟恢復至最佳狀態。
OpenManage Server Administrator (OMSA) 會在虛擬磁碟前方顯示紅色的叉號 (圖 1)。
圖 1:具有紅色叉號狀態的虛擬磁碟 (範例為 H800)
Windows 系統記錄顯示損毀磁區錯誤 (圖 2)。
圖 2:Windows 系統記錄中顯示的損毀磁區錯誤
RAID 控制器記錄 (TTYLOG) 顯示以下錯誤:
02/26/15 13:43:39: EVT#131878-02/26/15 13:43:39: 97=Puncturing bad block on PD XX(e0x20/s2) at 180ca4a1f
請在我們關於收集記錄的文章中尋找更多有關接收這些特定記錄的資訊。
RAID 陣列無法完全避免資料錯誤。 RAID 控制器和硬碟韌體的功能可在多種資料錯誤被寫入陣列/磁碟機之前,就偵測到它們並加以修正。 若使用過期的韌體,可能會因為缺乏最新韌體版本中處理錯誤/更正錯誤的功能,而讓錯誤的資料被寫入陣列/磁碟機中。
也可能因為實體損毀磁區導致資料錯誤。 例如,當讀/寫頭撞擊到正在旋轉的碟盤時 (這稱為「磁頭損壞」),便可能會發生這種情況。 隨著碟盤以磁性在特定位置儲存位元的效能降低,磁區也可能會隨著時間損毀。 碟盤效能降低導致的損毀磁區通常可成功讀取。 這樣的損毀磁區僅能間歇地偵測到,或是在磁碟機上進行更廣泛的診斷,才能偵測到此類損毀磁區。
損毀磁區又稱為損毀邏輯區塊定址 (LBA),也可能由邏輯資料錯誤所導致。 此問題發生在資料不正確寫入磁碟機時,即使報告為成功寫入。 此外,儲存在磁碟機上的良好資料可能會在不經意中遭到變更。 其中一個範例是「位元翻轉」,當讀/寫頭通過或寫入至附近位置時,便可能會發生這種狀況,並導致資料 (零和一) 變更為不同的值。 這類狀況會導致資料的「一致性」損壞。 特定磁區上的資料值與原始資料不同,並可能不再符合檢查總和。 實體 LBA 良好並可成功寫入,但目前包含不正確的資料,即可能會視為損毀磁區。
如需更多資訊,請閱讀我們關於 RAID 陣列中的雙重故障和穿刺的文章。
在檔案層級建立經過驗證的資料備份
務必更換所有顯示預測性故障的故障磁碟機
刪除並重新建立虛擬磁碟
為 VD 執行完整初始化
在新建立的 VD 上執行檢查一致性
資料現在可以還原至狀況良好的 VD
建議:將所有硬碟韌體升級至最新版本
OMSA 提供清除損毀磁區警告的功能。若要清除損毀磁區,建議執行下列程序:
在選取了驗證選項的虛擬磁碟上執行備份時,可能會發生兩種情況:
執行巡查讀取 (在 OMSA 的「虛擬磁碟工作」下),並檢查系統事件記錄,以確保沒有找到新損毀磁區。如果仍有損毀磁區,請繼續執行下一個步驟。如果沒有,便代表已解決此狀況。
若要清除這些損毀磁區,請執行清除虛擬磁碟損毀磁區工作。這可以透過 OMSA GUI 完成,或使用命令行介面 (CLI) 命令:
omconfig storage vdisk action=clearvdbadblocks controller=id vdisk=id
omreport storage controller
以顯示控制器 ID,然後輸入 omreport storage vdisk controller=ID
以顯示虛擬磁碟的 ID