Isilon: Jak ustalić, czy klaster Isilon znajduje się w oknie ryzyka utraty danych

Summary: Jak sprawdzić, czy klaster Isilon znajduje się w oknie zagrożenia utratą danych.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Wprowadzenie

Okno ryzyka (WOR) występuje, gdy wystarczająca liczba urządzeń w klastrze, puli węzłów lub puli dysków uległa awarii, aby osiągnąć poziom ochrony. Ten stan jest również znany jako "przy ochronie" lub "nadmiernej ochronie". Jeśli klaster lub pula znajduje się w WOR, utrata danych jeszcze nie nastąpiła. Jeśli jednak dodatkowe urządzenia ulegną awarii, może to spowodować utratę danych. To, czy nastąpi utrata danych, zależy od różnych czynników. Czynniki te obejmują; dodatkowe urządzenia, które uległy awarii przed zakończeniem pracy przez FlexProtect lub jeśli uszkodzone urządzenia były jedynym źródłem danych, o których mowa.

W tym artykule opisano, w jaki sposób działają poziomy ochrony w klastrze i jak można stwierdzić, czy klaster znajduje się w WOR w przypadku utraty danych.

NUTA
Do celów obliczenia WOR "awaria" oznacza urządzenia, które są w stanie "wyłączonym" lub "martwym". Urządzenia z opcją "soft_failed" nie są wliczane do poziomu ochrony. Zapoznaj się z poniższą sekcją "Procedura", aby dowiedzieć się, jak określić liczbę "nieaktywnych" lub "nieaktywnych" urządzeń.

NUTA
Stan, w którym więcej urządzeń ulegnie awarii niż liczba określona jako poziom ochrony, nazywa się "nadmierną ochroną". W tym stanie klaster lub pula węzłów/pula dysków nie może już pomyślnie odtworzyć wszystkich przechowywanych w nich danych.

 

Szczegóły

OneFS wykorzystuje model ochrony danych N+M. W notacji N+M N oznacza liczbę węzłów. M oznacza liczbę jednoczesnych węzłów, dysków lub puli węzłów/dysków, które klaster może obsłużyć bez utraty danych. Na przykład w przypadku ochrony N+2 klaster lub pula może utracić dwa dyski w różnych węzłach lub całkowicie utracić dwa węzły.

OneFS 6.5 i nowsze wersje obsługują również model ochrony N+M:B. W notacji N+M:B N oznacza liczbę węzłów. M oznacza liczbę niedziałających lub uszkodzonych dysków. Wartość B oznacza liczbę niedziałających lub uszkodzonych węzłów, które klaster lub pula węzłów/pula dysków może obsłużyć bez utraty danych. Na przykład przy ochronie N+3:1 klaster lub pula może utracić trzy dyski lub jeden węzeł bez utraty danych.

Wiele niedziałających lub uszkodzonych dysków w jednym węźle zawsze oznacza awarię jednego węzła (a nie awarię wielu dysków) na potrzeby obliczenia DOR. Oto kilka przykładów użycia klastra 8-węzłowego przy ochronie N+3:1:

  • Przykład 1: W jednym klastrze ulegają awarii trzy dyski, każdy w innym węźle. Spowoduje to umieszczenie klastra w WOR ("at protection").
  • Przykład 2: W jednym klastrze wystąpiła awaria dwóch dysków w tym samym węźle. Ponieważ dyski znajdują się w tym samym węźle, awarie są liczone jako awaria jednego węzła. Sytuacja ta powoduje również, że klaster znajduje się w WOR ("pod ochroną").

Aby uzyskać więcej informacji na temat poziomów ochrony danych i sposobu ich obliczania, zapoznaj się z podręcznikiem administratora OneFS.

OSTROŻNOŚĆ!
W przypadku podejrzenia lub stwierdzenia, że klaster jest w stanie WOR, przed podjęciem dalszych działań należy skontaktować się z działem pomocy technicznej firmy Dell, aby uzyskać wsparcie.

WAŻNY!
WOR może wystąpić w przypadku awarii dysków lub węzłów. Jednak inżynierowie Isilon zalecają pozostawienie uszkodzonych dysków lub węzłów w klastrze do momentu pomyślnego zakończenia operacji FlexProtect. Nawet jeśli urządzenie uległo awarii, niektóre lub wszystkie bloki danych mogą nadal być czytelne. Pozostawienie dysku lub węzła podłączonego do klastra zapewnia elastyczność w przypadku konieczności podjęcia próby odzyskania danych z uszkodzonego urządzenia.

 

Cause

Aby określić, czy klaster lub pula węzłów/pula dysków znajduje się obecnie w WOR, należy najpierw określić poziom ochrony skonfigurowany w klastrze lub puli. Następnie określ liczbę uszkodzonych węzłów i dysków. Do celów obliczenia WOR "awaria" oznacza urządzenia, które są w stanie "wyłączonym" lub "martwym". Postępuj zgodnie z instrukcjami w odpowiedniej sekcji.

Resolution

Procedura

 

    OneFS 7.2, 8.0, 9.0 i nowsze

    1. W sieciowym interfejsie administracyjnym OneFS przejdź do opcji Pule pamięci masowej > systemu > plików SmartPools.
    2. Uzyskaj bieżący poziom ochrony z tabeli Tiers & Node Pools w kolumnie Requested Protection .
    3. Otwórz połączenie SSH z węzłem i zaloguj się przy użyciu konta root.
    4. Określ, ile urządzeń jest "wyłączonych" lub "martwych", uruchamiając następujące polecenie:



      isi_group_info Dane wyjściowe wyglądają podobnie do poniższych. Jeśli są wyłączone lub martwe urządzenia, są one oznaczone na wyjściu jako "wyłączone" lub "martwe".

      Przykład niedziałającego węzła: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, w dół: 6 }

      Przykład downdrive'u: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, w dół: 02:10, 4:11, soft_failed: 2:10, 4:11 }

      Przykład martwego dysku: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, martwy: 2:10 }
    Aby uzyskać informacje na temat interpretacji danych wyjściowych, w tym jak rozpoznać, czy niedziałające lub niedziałające urządzenia są dyskami lub węzłami, zobacz:  Opis zmian w grupie OneFS lub interpretowanie zmian w grupie.

    OneFS 7.1

    1. W sieciowym interfejsie administracyjnym OneFS przejdź do opcji Zarządzanie > systemem plików Pule pamięci masowej > SmartPools.
    2. Uzyskaj bieżący poziom ochrony z tabeli Pule węzłów w kolumnie Żądana ochrona .
    3. Otwórz połączenie SSH z węzłem i zaloguj się przy użyciu konta root.
    4. Określ, ile urządzeń jest "wyłączonych" lub "martwych", uruchamiając następujące polecenie:



      isi_group_info Dane wyjściowe wyglądają podobnie do poniższych. Jeśli są wyłączone lub martwe urządzenia, są one oznaczone na wyjściu jako "wyłączone" lub "martwe".

      Przykład niedziałającego węzła: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, w dół: 6 }

      Przykład downdrive'u: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, w dół: 02:10, 4:11, soft_failed: 2:10, 4:11 }

      Przykład martwego dysku: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, martwy: 2:10 }

      Aby uzyskać informacje na temat interpretowania danych wyjściowych, w tym jak rozpoznać, czy wyłączone lub martwe urządzenia są dyskami lub węzłami, zobacz: Opis zmian w grupie OneFS lub interpretowanie zmian w grupie.

    OneFS 7.0

    1. W sieciowym interfejsie administracyjnym OneFS przejdź do podsumowania SmartPools > zarządzania > systemem plików.
    2. Uzyskaj bieżący poziom ochrony z tabeli Tiers & Node Pools w kolumnie Protection .
    3. Otwórz połączenie SSH z węzłem i zaloguj się przy użyciu konta root.
    4. Określ, ile urządzeń jest "wyłączonych" lub "martwych", uruchamiając następujące polecenie:



      isi_group_info Dane wyjściowe wyglądają podobnie do poniższych. Jeśli są wyłączone lub martwe urządzenia, są one oznaczone na wyjściu jako "wyłączone" lub "martwe".

      Przykład niedziałającego węzła: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, w dół: 6 }

      Przykład downdrive'u: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, w dół: 02:10, 4:11, soft_failed: 2:10, 4:11 }

      Przykład martwego dysku: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, martwy: 2:10 }
    Aby uzyskać informacje na temat interpretacji danych wyjściowych, w tym jak rozpoznać, czy niedziałające lub niedziałające urządzenia są dyskami lub węzłami, zobacz: Opis zmian w grupie OneFS lub interpretowanie zmian w grupie.

    OneFS 6.5

    1. W sieciowym interfejsie administracyjnym OneFS przejdź do sekcji Pule dyskowe SmartPools > systemu > plików.
    2. Uzyskaj bieżący poziom ochrony z kolumny Ochrona domyślna .
    3. Otwórz połączenie SSH z węzłem i zaloguj się przy użyciu konta root.
    4. Określ, ile urządzeń jest "wyłączonych" lub "martwych", uruchamiając następujące polecenie:



      isi_group_info Dane wyjściowe wyglądają podobnie do poniższych. Jeśli są wyłączone lub martwe urządzenia, są one oznaczone na wyjściu jako "wyłączone" lub "martwe".

      Przykład niedziałającego węzła: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, w dół: 6 }

      Przykład downdrive'u: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, w dół: 02:10, 4:11, soft_failed: 2:10, 4:11 }

      Przykład martwego dysku: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, martwy: 2:10 }
    Aby uzyskać informacje na temat interpretacji danych wyjściowych, w tym jak rozpoznać, czy niedziałające lub niedziałające urządzenia są dyskami lub węzłami, zobacz: Opis zmian w grupie OneFS lub interpretowanie zmian w grupie.

    Affected Products

    PowerScale OneFS

    Products

    Isilon
    Article Properties
    Article Number: 000018892
    Article Type: Solution
    Last Modified: 09 Jul 2025
    Version:  4
    Find answers to your questions from other Dell users
    Support Services
    Check if your device is covered by Support Services.