Isilon: Jak zjistit, zda je cluster Isilon ohrožen ztrátou dat

Summary: Jak zjistit, zda je cluster Isilon ohrožen ztrátou dat.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Úvod

Rizikové okno (WOR) nastane, když selže dostatečný počet zařízení v clusteru, fondu uzlů nebo fondu disků, aby bylo dosaženo úrovně ochrany. Tento stav je také známý jako "při ochraně" nebo "nadměrná ochrana". Pokud se cluster nebo fond nachází v WOR, ke ztrátě dat ještě nedošlo. Pokud však selžou další zařízení, může dojít ke ztrátě dat. To, zda dojde ke ztrátě dat, závisí na různých faktorech. Mezi tyto faktory patří; další zařízení, která selžou před dokončením FlexProtect, nebo pokud vadná zařízení byla jediným zdrojem dotyčných dat.

Tento článek popisuje, jak úrovně ochrany fungují v clusteru a jak můžete zjistit, jestli je cluster v režimu WOR kvůli ztrátě dat.

POZNÁMKA
Pro účely výpočtu WOR se pojmem "failed" rozumí zařízení, která jsou ve stavu "down" nebo "dead". Zařízení, která jsou v režimu "soft_failed", se do úrovní ochrany nezapočítávají. V části "Postup" níže zjistíte, jak zjistit počet "nefunkčních" nebo "nefunkčních" zařízení.

POZNÁMKA
Stav, kdy selže více zařízení, než je číslo zadané jako úroveň ochrany, se nazývá "nadměrná ochrana". V tomto stavu již cluster nebo fond uzlů nebo fond disků nemůže úspěšně znovu vytvořit všechna data, která jsou v něm uložena.

 

Podrobnosti

Systém OneFS používá model ochrany dat N+M. V notaci N+M představuje N počet uzlů. Písmeno M představuje počet souběžných uzlů, jednotek nebo fondu uzlů či fondu disků, které může cluster zpracovat bez ztráty dat. Například při ochraně N+2 může cluster nebo fond ztratit buď dvě jednotky na různých uzlech, nebo ztratit dva uzly úplně.

Systém OneFS 6.5 a novější také podporují model ochrany N+M:B. V notaci N+M:B představuje N počet uzlů. M představuje počet vypnutých nebo vadných disků. Písmeno B představuje počet uzlů, které jsou mimo provoz nebo selhaly a které cluster nebo fond uzlů nebo fond disků dokáže zpracovat bez ztráty dat. Například s ochranou N+3:1 může cluster nebo fond ztratit tři disky nebo jeden uzel bez ztráty dat.

Více nefunkčních nebo vadných disků v rámci jednoho uzlu vždy představuje selhání jednoho uzlu (nikoli selhání více disků) pro účely výpočtu WOR. Tady je několik příkladů použití clusteru s 8 uzly s ochranou N+3:1:

  • Příklad 1: V jednom clusteru selhávají tři disky, každý v jiném uzlu. Tím se cluster přepne do stavu WOR ("at protection").
  • Příklad 2: V jednom clusteru selhaly dva disky ve stejném uzlu. Jelikož se jednotky nacházejí ve stejném uzlu, selhání se počítají jako selhání jednoho uzlu. V této situaci se cluster také dostane do stavu WOR ("at protection").

Další informace o úrovních ochrany dat a způsobu jejich výpočtu naleznete v příručce pro správu systému OneFS.

OPATRNOST!
Pokud máte podezření nebo zjistíte, že je váš cluster ve stavu WOR, obraťte se před provedením dalších kroků na technickou podporu společnosti Dell a požádejte o pomoc.

DŮLEŽITÝ!
K chybě WOR může dojít, když jednotky nebo uzly selžou. Tým Isilon Engineering však doporučuje ponechat vadné disky nebo uzly v clusteru, dokud nebude operace FlexProtect úspěšně dokončena. I když zařízení selhalo, některé nebo všechny bloky dat mohou být stále čitelné. Ponecháte-li disk nebo uzel připojený ke clusteru, získáte flexibilitu, pokud bude nutný pokus o obnovení dat z vadného zařízení.

 

Cause

Chcete-li zjistit, zda je cluster nebo fond uzlů nebo fond disků aktuálně v WOR, nejprve určete úroveň ochrany nakonfigurovanou v clusteru nebo fondu. Dále určete, kolik vadných uzlů a jednotek existuje. Pro účely výpočtu WOR se pojmem "failed" rozumí zařízení, která jsou ve stavu "down" nebo "dead". Postupujte podle pokynů v příslušné části, která následuje.

Resolution

Postup

 

    OneFS 7.2, 8.0, 9.0 a vyšší

    1. V rozhraní webové správy OneFS přejděte do části File System > Storage Pools > SmartPools.
    2. Aktuální úroveň ochrany získáte z tabulky Úrovně a fondy uzlů ve sloupci Požadovaná ochrana .
    3. Navažte SSH připojení k uzlu a přihlaste se pomocí účtu "root".
    4. Pomocí následujícího příkazu určete, kolik zařízení je mimo provoz nebo je nefunkčních:



      isi_group_info Výstup vypadá podobně jako v následujícím příkladu. Pokud jsou vypnutá nebo mrtvá zařízení, jsou ve výstupu označena jako "down" nebo "dead".

      Příklad uzlu mimo provoz: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, dolů: 6 }

      Příklad jednotky pro down: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, dolů: 2:10, 4:11, soft_failed: 2:10, 4:11 }

      Příklad mrtvého disku: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, mrtvý: 2:10 }
    Informace o interpretaci výstupu, včetně toho, jak zjistit, zda jsou vypnutá nebo mrtvá zařízení disky nebo uzly, najdete tady:  Vysvětlení změn skupiny OneFS nebo interpretace změn skupiny.

    OneFS 7.1

    1. V rozhraní webové správy OneFS přejděte do části File System Management > Storage Pools > SmartPools.
    2. Aktuální úroveň ochrany získáte z tabulky Fondy uzlů ve sloupci Požadovaná ochrana .
    3. Navažte SSH připojení k uzlu a přihlaste se pomocí účtu "root".
    4. Pomocí následujícího příkazu určete, kolik zařízení je mimo provoz nebo je nefunkčních:



      isi_group_info Výstup vypadá podobně jako v následujícím příkladu. Pokud jsou vypnutá nebo mrtvá zařízení, jsou ve výstupu označena jako "down" nebo "dead".

      Příklad uzlu mimo provoz: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, dolů: 6 }

      Příklad jednotky pro down: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, dolů: 2:10, 4:11, soft_failed: 2:10, 4:11 }

      Příklad mrtvého disku: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, mrtvý: 2:10 }

      Informace o interpretaci výstupu, včetně toho, jak zjistit, jestli jsou vypnutá nebo mrtvá zařízení disky nebo uzly, najdete tady: Vysvětlení změn skupiny OneFS nebo interpretace změn skupiny.

    OneFS 7.0

    1. Ve webovém rozhraní pro správu OneFS přejděte do části File System > Management SmartPools > Summary.
    2. Aktuální úroveň ochrany získáte z tabulky Úrovně a fondy uzlů ve sloupci Ochrana .
    3. Navažte SSH připojení k uzlu a přihlaste se pomocí účtu "root".
    4. Pomocí následujícího příkazu určete, kolik zařízení je mimo provoz nebo je nefunkčních:



      isi_group_info Výstup vypadá podobně jako v následujícím příkladu. Pokud jsou vypnutá nebo mrtvá zařízení, jsou ve výstupu označena jako "down" nebo "dead".

      Příklad uzlu mimo provoz: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, dolů: 6 }

      Příklad jednotky pro down: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, dolů: 2:10, 4:11, soft_failed: 2:10, 4:11 }

      Příklad mrtvého disku: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, mrtvý: 2:10 }
    Informace o interpretaci výstupu, včetně toho, jak zjistit, zda jsou vypnutá nebo mrtvá zařízení disky nebo uzly, najdete tady: Vysvětlení změn skupiny OneFS nebo interpretace změn skupiny.

    OneFS 6.5

    1. Ve webovém rozhraní pro správu OneFS přejděte do části File System > SmartPools > Disk Pools.
    2. Aktuální úroveň ochrany získáte ze sloupce Výchozí ochrana .
    3. Navažte SSH připojení k uzlu a přihlaste se pomocí účtu "root".
    4. Pomocí následujícího příkazu určete, kolik zařízení je mimo provoz nebo je nefunkčních:



      isi_group_info Výstup vypadá podobně jako v následujícím příkladu. Pokud jsou vypnutá nebo mrtvá zařízení, jsou ve výstupu označena jako "down" nebo "dead".

      Příklad uzlu mimo provoz: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, dolů: 6 }

      Příklad jednotky pro down: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, dolů: 2:10, 4:11, soft_failed: 2:10, 4:11 }

      Příklad mrtvého disku: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, mrtvý: 2:10 }
    Informace o interpretaci výstupu, včetně toho, jak zjistit, zda jsou vypnutá nebo mrtvá zařízení disky nebo uzly, najdete tady: Vysvětlení změn skupiny OneFS nebo interpretace změn skupiny.

    Affected Products

    PowerScale OneFS

    Products

    Isilon
    Article Properties
    Article Number: 000018892
    Article Type: Solution
    Last Modified: 09 Jul 2025
    Version:  4
    Find answers to your questions from other Dell users
    Support Services
    Check if your device is covered by Support Services.