磁碟機可能會因為 I/O 錯誤,或軟體定義的儲存裝置將磁碟機標記為故障或無法使用
Summary: 使用者可能會因為 I/O 錯誤或軟體定義儲存 (SDS) 解決方案將磁碟機標示為「故障」或「無法使用」而要求更換磁碟機。
Instructions
有幾種不同的 SDS 解決方案,例如 Ceph (Linux)、vSAN (VMware)、Nutanix 等。數部配置相同的伺服器透過網路連接在一起,以建立儲存叢集。伺服器會使用主機匯流排配接卡 (HBA) 而非 PERC 進行設定,以使磁碟機以「原樣」呈現至作業系統。作業系統會直接管理每個伺服器中的所有磁碟機,而不需要 HBA 的任何介入。磁碟機在 Dell 監控工具 (例如 iDRAC 和 OMSA) 以及 ePSA 離線診斷中列為「良好」。磁碟機的 SMARTCTL 資料不一定會有未修正的讀取與寫入錯誤。通過 SMART 測試 (短期、長期和延長),磁碟機顯示為「良好」。
軟體定義儲存解決方案 (SDS) 會使用主機匯流排配接卡 (HBA) 提供磁碟機的實體連線能力,將所有儲存相關的控制從硬體轉移至軟體。
RAID 控制器 (PERC) 負責在磁碟機上執行數種主動式維護活動,包括在虛擬磁碟上巡查讀取和一致性檢查。由於軟體定義儲存 (SDS) 解決方案使用主機匯流排配接卡 (HBA) 而非 PERC,軟體現在可執行所有這些主動式維護活動。
使用者可能會報告 SDS 將磁碟機標記為「故障或無法使用」,或者可能會列出磁碟機上的 I/O 錯誤。iDRAC 和 OMSA 等 Dell 監控工具會將磁碟機回報為良好運作。
「SMARTMON」或「SMARTCTL」等工具可能會在一或多個指出的磁碟機上列出一些錯誤 但整體磁碟機健全狀況會列為「良好或正常」。
這種差異是由以下因素造成的:
- iDRAC 會顯示元件的健全狀況狀態。如果磁碟機韌體報告狀況良好,則 iDRAC 會反映相同的狀況。如果磁碟機韌體聲明其處於預測性故障狀況,則 iDRAC 會反映相同的狀況。
- 所有磁碟機均可容許部分損毀磁區或無法修正的錯誤,並繼續運作,不會對功能造成任何影響。損毀磁區的閾值由磁碟機製造商設定至磁碟機韌體中,並非標準數字或百分比。
- 磁碟機可保持運作狀態,直到磁碟機上的損毀磁區或無法修正的錯誤總數突破預測性故障或故障閾值為止。
- 磁碟機上的偏移位址會標示為損毀磁區,且只有在該特定位址的寫入作業失敗時,才會重新放置資料。磁碟機韌體不會將將磁區標記為損毀磁區的讀取錯誤視為讀取錯誤。
- 在作業系統等級記錄的 I/O 錯誤可能不會反映在生命週期記錄中。
在這種情況下,磁碟機可正常運作,且完全符合其運作參數。這些零件不符合硬體更換的資格,也不需要進行更換。此處建議的行動計劃是從軟體層執行必要的維護活動,以解決問題。
在這種情況下,請從一或多個受影響的伺服器捕獲完整的操作系統日誌捆綁包或報告。請聯絡 Dell SST (若保固協議涵蓋) 或作業系統廠商以進行記錄檢閱,因為他們必須就後續的修正步驟提供建議。
Dell SST 或作業系統廠商會決定下列詳細資料:
- 作業系統核心記錄的 I/O 錯誤總數 (若有)。
- 記錄錯誤的裝置 (一或多個)。
- 損毀類型:檔案或中繼資料等級 (若有)
- 存儲服務是否崩潰?如果是,為什麼?
- SDS 中提供了解決此類錯誤的糾正措施。