Isilon: Jak ustalić, czy klaster Isilon znajduje się w oknie ryzyka utraty danych
Summary: Jak sprawdzić, czy klaster Isilon znajduje się w oknie zagrożenia utratą danych.
Symptoms
Wprowadzenie
Okno ryzyka (WOR) występuje, gdy wystarczająca liczba urządzeń w klastrze, puli węzłów lub puli dysków uległa awarii, aby osiągnąć poziom ochrony. Ten stan jest również znany jako "przy ochronie" lub "nadmiernej ochronie". Jeśli klaster lub pula znajduje się w WOR, utrata danych jeszcze nie nastąpiła. Jeśli jednak dodatkowe urządzenia ulegną awarii, może to spowodować utratę danych. To, czy nastąpi utrata danych, zależy od różnych czynników. Czynniki te obejmują; dodatkowe urządzenia, które uległy awarii przed zakończeniem pracy przez FlexProtect lub jeśli uszkodzone urządzenia były jedynym źródłem danych, o których mowa.
W tym artykule opisano, w jaki sposób działają poziomy ochrony w klastrze i jak można stwierdzić, czy klaster znajduje się w WOR w przypadku utraty danych.
Do celów obliczenia WOR "awaria" oznacza urządzenia, które są w stanie "wyłączonym" lub "martwym". Urządzenia z opcją "soft_failed" nie są wliczane do poziomu ochrony. Zapoznaj się z poniższą sekcją "Procedura", aby dowiedzieć się, jak określić liczbę "nieaktywnych" lub "nieaktywnych" urządzeń.
NUTA
Stan, w którym więcej urządzeń ulegnie awarii niż liczba określona jako poziom ochrony, nazywa się "nadmierną ochroną". W tym stanie klaster lub pula węzłów/pula dysków nie może już pomyślnie odtworzyć wszystkich przechowywanych w nich danych.
Szczegóły
OneFS wykorzystuje model ochrony danych N+M. W notacji N+M N oznacza liczbę węzłów. M oznacza liczbę jednoczesnych węzłów, dysków lub puli węzłów/dysków, które klaster może obsłużyć bez utraty danych. Na przykład w przypadku ochrony N+2 klaster lub pula może utracić dwa dyski w różnych węzłach lub całkowicie utracić dwa węzły.
OneFS 6.5 i nowsze wersje obsługują również model ochrony N+M:B. W notacji N+M:B N oznacza liczbę węzłów. M oznacza liczbę niedziałających lub uszkodzonych dysków. Wartość B oznacza liczbę niedziałających lub uszkodzonych węzłów, które klaster lub pula węzłów/pula dysków może obsłużyć bez utraty danych. Na przykład przy ochronie N+3:1 klaster lub pula może utracić trzy dyski lub jeden węzeł bez utraty danych.
Wiele niedziałających lub uszkodzonych dysków w jednym węźle zawsze oznacza awarię jednego węzła (a nie awarię wielu dysków) na potrzeby obliczenia DOR. Oto kilka przykładów użycia klastra 8-węzłowego przy ochronie N+3:1:
- Przykład 1: W jednym klastrze ulegają awarii trzy dyski, każdy w innym węźle. Spowoduje to umieszczenie klastra w WOR ("at protection").
- Przykład 2: W jednym klastrze wystąpiła awaria dwóch dysków w tym samym węźle. Ponieważ dyski znajdują się w tym samym węźle, awarie są liczone jako awaria jednego węzła. Sytuacja ta powoduje również, że klaster znajduje się w WOR ("pod ochroną").
Aby uzyskać więcej informacji na temat poziomów ochrony danych i sposobu ich obliczania, zapoznaj się z podręcznikiem administratora OneFS.
OSTROŻNOŚĆ!
W przypadku podejrzenia lub stwierdzenia, że klaster jest w stanie WOR, przed podjęciem dalszych działań należy skontaktować się z działem pomocy technicznej firmy Dell, aby uzyskać wsparcie.
WAŻNY!
WOR może wystąpić w przypadku awarii dysków lub węzłów. Jednak inżynierowie Isilon zalecają pozostawienie uszkodzonych dysków lub węzłów w klastrze do momentu pomyślnego zakończenia operacji FlexProtect. Nawet jeśli urządzenie uległo awarii, niektóre lub wszystkie bloki danych mogą nadal być czytelne. Pozostawienie dysku lub węzła podłączonego do klastra zapewnia elastyczność w przypadku konieczności podjęcia próby odzyskania danych z uszkodzonego urządzenia.
Cause
Aby określić, czy klaster lub pula węzłów/pula dysków znajduje się obecnie w WOR, należy najpierw określić poziom ochrony skonfigurowany w klastrze lub puli. Następnie określ liczbę uszkodzonych węzłów i dysków. Do celów obliczenia WOR "awaria" oznacza urządzenia, które są w stanie "wyłączonym" lub "martwym". Postępuj zgodnie z instrukcjami w odpowiedniej sekcji.
Resolution
Procedura
OneFS 7.2, 8.0, 9.0 i nowsze
- W sieciowym interfejsie administracyjnym OneFS przejdź do opcji Pule pamięci masowej > systemu > plików SmartPools.
- Uzyskaj bieżący poziom ochrony z tabeli Tiers & Node Pools w kolumnie Requested Protection .
- Otwórz połączenie SSH z węzłem i zaloguj się przy użyciu konta root.
- Określ, ile urządzeń jest "wyłączonych" lub "martwych", uruchamiając następujące polecenie:
isi_group_info Dane wyjściowe wyglądają podobnie do poniższych. Jeśli są wyłączone lub martwe urządzenia, są one oznaczone na wyjściu jako "wyłączone" lub "martwe".
Przykład niedziałającego węzła: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, w dół: 6 }
Przykład downdrive'u: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, w dół: 02:10, 4:11, soft_failed: 2:10, 4:11 }
Przykład martwego dysku: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, martwy: 2:10 }
OneFS 7.1
- W sieciowym interfejsie administracyjnym OneFS przejdź do opcji Zarządzanie > systemem plików Pule pamięci masowej > SmartPools.
- Uzyskaj bieżący poziom ochrony z tabeli Pule węzłów w kolumnie Żądana ochrona .
- Otwórz połączenie SSH z węzłem i zaloguj się przy użyciu konta root.
- Określ, ile urządzeń jest "wyłączonych" lub "martwych", uruchamiając następujące polecenie:
isi_group_info Dane wyjściowe wyglądają podobnie do poniższych. Jeśli są wyłączone lub martwe urządzenia, są one oznaczone na wyjściu jako "wyłączone" lub "martwe".
Przykład niedziałającego węzła: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, w dół: 6 }
Przykład downdrive'u: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, w dół: 02:10, 4:11, soft_failed: 2:10, 4:11 }
Przykład martwego dysku: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, martwy: 2:10 }
Aby uzyskać informacje na temat interpretowania danych wyjściowych, w tym jak rozpoznać, czy wyłączone lub martwe urządzenia są dyskami lub węzłami, zobacz: Opis zmian w grupie OneFS lub interpretowanie zmian w grupie.
OneFS 7.0
- W sieciowym interfejsie administracyjnym OneFS przejdź do podsumowania SmartPools > zarządzania > systemem plików.
- Uzyskaj bieżący poziom ochrony z tabeli Tiers & Node Pools w kolumnie Protection .
- Otwórz połączenie SSH z węzłem i zaloguj się przy użyciu konta root.
- Określ, ile urządzeń jest "wyłączonych" lub "martwych", uruchamiając następujące polecenie:
isi_group_info Dane wyjściowe wyglądają podobnie do poniższych. Jeśli są wyłączone lub martwe urządzenia, są one oznaczone na wyjściu jako "wyłączone" lub "martwe".
Przykład niedziałającego węzła: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, w dół: 6 }
Przykład downdrive'u: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, w dół: 02:10, 4:11, soft_failed: 2:10, 4:11 }
Przykład martwego dysku: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, martwy: 2:10 }
OneFS 6.5
- W sieciowym interfejsie administracyjnym OneFS przejdź do sekcji Pule dyskowe SmartPools > systemu > plików.
- Uzyskaj bieżący poziom ochrony z kolumny Ochrona domyślna .
- Otwórz połączenie SSH z węzłem i zaloguj się przy użyciu konta root.
- Określ, ile urządzeń jest "wyłączonych" lub "martwych", uruchamiając następujące polecenie:
isi_group_info Dane wyjściowe wyglądają podobnie do poniższych. Jeśli są wyłączone lub martwe urządzenia, są one oznaczone na wyjściu jako "wyłączone" lub "martwe".
Przykład niedziałającego węzła: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, w dół: 6 }
Przykład downdrive'u: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, w dół: 02:10, 4:11, soft_failed: 2:10, 4:11 }
Przykład martwego dysku: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, martwy: 2:10 }