Isilon:如何判斷 Isilon 叢集是否處於資料遺失風險視窗內
Summary: 如何判斷 Isilon 叢集是否處於資料遺失風險視窗內。
Symptoms
簡介
當群集、節點池或磁碟池中有足夠多的設備發生故障以達到保護級別時,就會發生風險窗口 (WOR)。這種情況也稱為“保護”或“過度保護”。當群集或池位於 WOR 中時,尚未發生數據丟失。但是,如果其他設備發生故障,則可能會發生數據丟失。是否發生數據丟失取決於不同的因素。這些因素包括;在 FlexProtect 完成之前,或者如果故障的裝置是相關資料的唯一來源,則有其他裝置發生故障。
本文介紹保護級別在群集上的工作原理,以及如何判斷群集是否處於數據丟失的 WOR 中。
就 WOR 計算而言,「故障」代表處於「故障」或「死機」狀態的裝置。「soft_failed」的裝置不會計入保護等級。請參閱下方的「程序」一節,瞭解如何判斷「停機」或「失效」裝置的數目。
便條
故障的裝置數超過指定為保護等級的數目的情況,稱為「過度保護」。在此狀態下,群集或節點池/磁碟池無法再成功重新創建其中存儲的所有數據。
詳細資料
OneFS 使用 N+M 資料保護模式。在 N+M 表示法中,N 表示節點數。M 代表叢集可在不遺失資料的情況下處理的同時節點、磁碟機,或節點集區/磁碟集區的數量。舉例來說,使用 N+2 保護功能時,叢集或集區可能會在不同的節點上失去兩個磁碟機,或完全失去兩個節點。
OneFS 6.5 及更新版本也支援 N+M:B 保護模型。在 N+M:B 表示法中,N 表示節點數。M 代表故障或故障的磁碟機數量。B 表示群集或節點池/磁碟池可以在不丟失數據的情況下處理的關閉或故障節點數。例如,使用 N+3:1 保護,群集或池可以丟失三個驅動器或一個節點而不會丟失數據。
就 WOR 計算而言,單一節點內多個故障或故障的磁碟機一律代表單一節點故障 (而非多個磁碟機故障)。以下是在 N+3:1 保護下使用 8 節點叢集的一些範例:
- 範例 1:在單一叢集中有三個磁碟機故障,每個磁碟機位於不同的節點中。這會將群集置於 WOR 中(“處於保護狀態”)。
- 範例 2:在單一叢集中,相同節點內的兩個磁碟機發生故障。由於磁碟機位於相同的節點中,因此故障計為單一節點故障。這種情況也會使群集處於 WOR(“處於保護狀態”)。
如需有關資料保護等級及其計算方式的詳細資訊,請參閱 OneFS 管理指南。
小心!
如果您懷疑或判斷您的叢集處於 WOR 狀態,請聯絡 Dell 技術支援部門以取得協助,然後再採取進一步行動。
要!
當驅動器或節點發生故障時,可能會發生 WOR。不過,Isilon 工程部門建議您將故障的磁碟機或節點保留在叢集中,直到 FlexProtect 作業成功完成為止。儘管設備出現故障,部分或全部數據塊可能仍可讀取。如果必須嘗試從故障設備恢復數據,將驅動器或節點加入群集可提供靈活性。
Cause
若要確定群集或節點池/磁碟池當前是否在 WOR 中,請首先確定群集或池上配置的保護級別。接下來,判斷存在多少個故障節點和磁碟機就 WOR 計算而言,「故障」代表處於「故障」或「死機」狀態的裝置。請遵循下列適當章節中的指示操作。
Resolution
程序
OneFS 7.2、8.0、9.0 及更新版本
- 在 OneFS Web 管理介面中,前往 檔案系統 > 儲存集區 > SmartPools。
- 從層 > 節點集區 表格 的要求保護 欄中,取得目前的保護等級。
- 開啟與節點的 SSH 連線,並使用「root」帳戶登入。
- 執行下列命令,判斷有多少裝置「停機」或「失效」:
isi_group_info 輸出結果類似於以下內容。 如果有停機或死機裝置,則輸出中會將其指示為「停機」或「死機」。
關閉節點範例: efs.gmp.group:{ 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, 下:6 }
下行磁碟機的範例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, 下:2:10, 4:11, soft_failed:2:10, 4:11 }
死磁片磁碟機的範例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, 死:2:10 }
OneFS 7.1
- 在 OneFS Web 管理介面中,前往 檔案系統管理 > 儲存集區 > SmartPools。
- 從節點集區表的「要求的保護」欄中取得目前的保護等級。
- 開啟與節點的 SSH 連線,並使用「root」帳戶登入。
- 執行下列命令,判斷有多少裝置「停機」或「失效」:
isi_group_info 輸出結果類似於以下內容。 如果有停機或死機裝置,則輸出中會將其指示為「停機」或「死機」。
關閉節點範例: efs.gmp.group:{ 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, 下:6 }
下行磁碟機的範例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, 下:2:10, 4:11, soft_failed:2:10, 4:11 }
死磁片磁碟機的範例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, 死:2:10 }
如需解譯輸出的相關資訊,包括如何瞭解停機或死機裝置是磁碟機或節點,請參閱:瞭解 OneFS 群組變更或 解釋群組變更。
OneFS 7.0
- 在 OneFS Web 管理介面中,前往 檔案系統管理 > SmartPools > 摘要。
- 從層 > 節點集區的「保護」欄中取得目前的保護等級。
- 開啟與節點的 SSH 連線,並使用「root」帳戶登入。
- 執行下列命令,判斷有多少裝置「停機」或「失效」:
isi_group_info 輸出結果類似於以下內容。 如果有停機或死機裝置,則輸出中會將其指示為「停機」或「死機」。
關閉節點範例: efs.gmp.group:{ 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, 下:6 }
下行磁碟機的範例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, 下:2:10, 4:11, soft_failed:2:10, 4:11 }
死磁片磁碟機的範例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, 死:2:10 }
OneFS 6.5
- 在 OneFS Web 管理介面中,前往 檔案系統 > SmartPools > 磁碟集區。
- 從 預設保護 欄取得目前的保護等級。
- 開啟與節點的 SSH 連線,並使用「root」帳戶登入。
- 執行下列命令,判斷有多少裝置「停機」或「失效」:
isi_group_info 輸出結果類似於以下內容。 如果有停機或死機裝置,則輸出中會將其指示為「停機」或「死機」。
關閉節點範例: efs.gmp.group:{ 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, 下:6 }
下行磁碟機的範例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, 下:2:10, 4:11, soft_failed:2:10, 4:11 }
死磁片磁碟機的範例: efs.gmp.group:{ 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, 死:2:10 }