Isilon: Jak zjistit, zda je cluster Isilon ohrožen ztrátou dat
Summary: Jak zjistit, zda je cluster Isilon ohrožen ztrátou dat.
Symptoms
Úvod
Rizikové okno (WOR) nastane, když selže dostatečný počet zařízení v clusteru, fondu uzlů nebo fondu disků, aby bylo dosaženo úrovně ochrany. Tento stav je také známý jako "při ochraně" nebo "nadměrná ochrana". Pokud se cluster nebo fond nachází v WOR, ke ztrátě dat ještě nedošlo. Pokud však selžou další zařízení, může dojít ke ztrátě dat. To, zda dojde ke ztrátě dat, závisí na různých faktorech. Mezi tyto faktory patří; další zařízení, která selžou před dokončením FlexProtect, nebo pokud vadná zařízení byla jediným zdrojem dotyčných dat.
Tento článek popisuje, jak úrovně ochrany fungují v clusteru a jak můžete zjistit, jestli je cluster v režimu WOR kvůli ztrátě dat.
Pro účely výpočtu WOR se pojmem "failed" rozumí zařízení, která jsou ve stavu "down" nebo "dead". Zařízení, která jsou v režimu "soft_failed", se do úrovní ochrany nezapočítávají. V části "Postup" níže zjistíte, jak zjistit počet "nefunkčních" nebo "nefunkčních" zařízení.
POZNÁMKA
Stav, kdy selže více zařízení, než je číslo zadané jako úroveň ochrany, se nazývá "nadměrná ochrana". V tomto stavu již cluster nebo fond uzlů nebo fond disků nemůže úspěšně znovu vytvořit všechna data, která jsou v něm uložena.
Podrobnosti
Systém OneFS používá model ochrany dat N+M. V notaci N+M představuje N počet uzlů. Písmeno M představuje počet souběžných uzlů, jednotek nebo fondu uzlů či fondu disků, které může cluster zpracovat bez ztráty dat. Například při ochraně N+2 může cluster nebo fond ztratit buď dvě jednotky na různých uzlech, nebo ztratit dva uzly úplně.
Systém OneFS 6.5 a novější také podporují model ochrany N+M:B. V notaci N+M:B představuje N počet uzlů. M představuje počet vypnutých nebo vadných disků. Písmeno B představuje počet uzlů, které jsou mimo provoz nebo selhaly a které cluster nebo fond uzlů nebo fond disků dokáže zpracovat bez ztráty dat. Například s ochranou N+3:1 může cluster nebo fond ztratit tři disky nebo jeden uzel bez ztráty dat.
Více nefunkčních nebo vadných disků v rámci jednoho uzlu vždy představuje selhání jednoho uzlu (nikoli selhání více disků) pro účely výpočtu WOR. Tady je několik příkladů použití clusteru s 8 uzly s ochranou N+3:1:
- Příklad 1: V jednom clusteru selhávají tři disky, každý v jiném uzlu. Tím se cluster přepne do stavu WOR ("at protection").
- Příklad 2: V jednom clusteru selhaly dva disky ve stejném uzlu. Jelikož se jednotky nacházejí ve stejném uzlu, selhání se počítají jako selhání jednoho uzlu. V této situaci se cluster také dostane do stavu WOR ("at protection").
Další informace o úrovních ochrany dat a způsobu jejich výpočtu naleznete v příručce pro správu systému OneFS.
OPATRNOST!
Pokud máte podezření nebo zjistíte, že je váš cluster ve stavu WOR, obraťte se před provedením dalších kroků na technickou podporu společnosti Dell a požádejte o pomoc.
DŮLEŽITÝ!
K chybě WOR může dojít, když jednotky nebo uzly selžou. Tým Isilon Engineering však doporučuje ponechat vadné disky nebo uzly v clusteru, dokud nebude operace FlexProtect úspěšně dokončena. I když zařízení selhalo, některé nebo všechny bloky dat mohou být stále čitelné. Ponecháte-li disk nebo uzel připojený ke clusteru, získáte flexibilitu, pokud bude nutný pokus o obnovení dat z vadného zařízení.
Cause
Chcete-li zjistit, zda je cluster nebo fond uzlů nebo fond disků aktuálně v WOR, nejprve určete úroveň ochrany nakonfigurovanou v clusteru nebo fondu. Dále určete, kolik vadných uzlů a jednotek existuje. Pro účely výpočtu WOR se pojmem "failed" rozumí zařízení, která jsou ve stavu "down" nebo "dead". Postupujte podle pokynů v příslušné části, která následuje.
Resolution
Postup
OneFS 7.2, 8.0, 9.0 a vyšší
- V rozhraní webové správy OneFS přejděte do části File System > Storage Pools > SmartPools.
- Aktuální úroveň ochrany získáte z tabulky Úrovně a fondy uzlů ve sloupci Požadovaná ochrana .
- Navažte SSH připojení k uzlu a přihlaste se pomocí účtu "root".
- Pomocí následujícího příkazu určete, kolik zařízení je mimo provoz nebo je nefunkčních:
isi_group_info Výstup vypadá podobně jako v následujícím příkladu. Pokud jsou vypnutá nebo mrtvá zařízení, jsou ve výstupu označena jako "down" nebo "dead".
Příklad uzlu mimo provoz: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, dolů: 6 }
Příklad jednotky pro down: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, dolů: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Příklad mrtvého disku: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, mrtvý: 2:10 }
OneFS 7.1
- V rozhraní webové správy OneFS přejděte do části File System Management > Storage Pools > SmartPools.
- Aktuální úroveň ochrany získáte z tabulky Fondy uzlů ve sloupci Požadovaná ochrana .
- Navažte SSH připojení k uzlu a přihlaste se pomocí účtu "root".
- Pomocí následujícího příkazu určete, kolik zařízení je mimo provoz nebo je nefunkčních:
isi_group_info Výstup vypadá podobně jako v následujícím příkladu. Pokud jsou vypnutá nebo mrtvá zařízení, jsou ve výstupu označena jako "down" nebo "dead".
Příklad uzlu mimo provoz: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, dolů: 6 }
Příklad jednotky pro down: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, dolů: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Příklad mrtvého disku: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, mrtvý: 2:10 }
Informace o interpretaci výstupu, včetně toho, jak zjistit, jestli jsou vypnutá nebo mrtvá zařízení disky nebo uzly, najdete tady: Vysvětlení změn skupiny OneFS nebo interpretace změn skupiny.
OneFS 7.0
- Ve webovém rozhraní pro správu OneFS přejděte do části File System > Management SmartPools > Summary.
- Aktuální úroveň ochrany získáte z tabulky Úrovně a fondy uzlů ve sloupci Ochrana .
- Navažte SSH připojení k uzlu a přihlaste se pomocí účtu "root".
- Pomocí následujícího příkazu určete, kolik zařízení je mimo provoz nebo je nefunkčních:
isi_group_info Výstup vypadá podobně jako v následujícím příkladu. Pokud jsou vypnutá nebo mrtvá zařízení, jsou ve výstupu označena jako "down" nebo "dead".
Příklad uzlu mimo provoz: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, dolů: 6 }
Příklad jednotky pro down: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, dolů: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Příklad mrtvého disku: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, mrtvý: 2:10 }
OneFS 6.5
- Ve webovém rozhraní pro správu OneFS přejděte do části File System > SmartPools > Disk Pools.
- Aktuální úroveň ochrany získáte ze sloupce Výchozí ochrana .
- Navažte SSH připojení k uzlu a přihlaste se pomocí účtu "root".
- Pomocí následujícího příkazu určete, kolik zařízení je mimo provoz nebo je nefunkčních:
isi_group_info Výstup vypadá podobně jako v následujícím příkladu. Pokud jsou vypnutá nebo mrtvá zařízení, jsou ve výstupu označena jako "down" nebo "dead".
Příklad uzlu mimo provoz: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, dolů: 6 }
Příklad jednotky pro down: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, dolů: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Příklad mrtvého disku: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, mrtvý: 2:10 }