Isilon: Sen selvittäminen, onko Isilon-klusteriin liittynyt tietojen menetyksen riski?
Summary: Sen selvittäminen, onko Isilon-klusterissa tietojen menetyksen riski.
Symptoms
Johdanto
Window Of Risk (WOR) -ikkuna tapahtuu, kun riittävän moni klusterin, solmun tai levyvarannon laite ei ole läpäissyt suojaustason saavuttamista. Tämä tila tunnetaan myös nimellä "suojauksessa" tai "ylisuojaus". Kun klusteri tai varanto on WOR-tilassa, tietoja ei ole vielä menetetty. Jos lisälaitteet kuitenkin vikaantuvat, tietoja saatetaan menettää. Se, menetetäänkö tietoja vai ei, riippuu eri tekijöistä. Näitä tekijöitä ovat; lisälaitteet vikaantuvat, ennen kuin FlexProtect ehtii valmistua, tai jos vialliset laitteet olivat kyseisten tietojen ainoa lähde.
Tässä artikkelissa kuvataan, miten klusterin suojaustasot toimivat ja miten voit selvittää, onko klusteri WOR-tilassa tietojen menetyksen varalta.
WOR-arvon laskennassa "vikaantunut" tarkoittaa laitteita, jotka ovat "alas" tai "kuolleessa" tilassa. Laitteita, joiden luokitus on soft_failed, ei lasketa suojaustasoiksi. Katso alla olevasta toimenpideosasta, miten voit selvittää kaatuneiden tai kuolleiden laitteiden määrän.
MUISTIINPANO
Tilaa, jossa useampi laite vikaantuu kuin suojaustasoksi määritetty numero, kutsutaan "ylisuojaukseksi". Tässä tilassa klusterin tai solmun varanto/levyvaranto ei voi enää luoda uudelleen kaikkia sinne tallennettuja tietoja.
Tiedot
OneFS käyttää N+M-tietosuojamallia. N + M-merkinnässä N edustaa solmujen lukumäärää. M ilmaisee, kuinka monta samanaikaista solmua, asemaa tai solmuvarantoa/levyvarantoa klusteri pystyy käsittelemään menettämättä tietoja. Esimerkiksi N+2-suojauksessa klusteri tai varanto voi menettää joko kaksi asemaa eri solmuissa tai kokonaan kaksi solmua.
OneFS 6.5 ja uudemmat tukevat myös N+M:B-suojausmallia. N + M: B-merkinnässä N edustaa solmujen määrää. M tarkoittaa kaatuneiden tai vikaantuneiden asemien määrää. B ilmaisee niiden kaatuneiden tai epäonnistuneiden solmujen määrän, jotka klusteri tai solmuvaranto / levyvaranto pystyy käsittelemään menettämättä tietoja. Esimerkiksi N+3:1-suojauksen ansiosta klusteri tai varanto voi menettää kolme asemaa tai yhden solmun menettämättä tietoja.
Useita alas- tai vikaantuneita asemia samassa solmussa tarkoittaa aina yhtä solmuvikaa (useiden asemien vikaantumisen sijaan) VOR-laskelmaa sovellettaessa. Seuraavassa on joitakin esimerkkejä 8-solmuisen klusterin käytöstä N+3:1-suojauksella:
- Esimerkki 1: Samassa klusterissa vikaantuu kolme asemaa, kukin eri solmussa. Tämä asettaa klusterin WOR-tilaan ("at protection").
- Esimerkki 2: Samassa klusterissa on vikaantunut kaksi saman solmun asemaa. Koska asemat ovat samassa solmussa, viat lasketaan yhden solmun virheeksi. Tämä tilanne asettaa klusterin myös WOR-tilaan ("suojauksessa").
Lisätietoja tietosuojatasoista ja niiden laskemisesta on OneFS-hallintaoppaassa.
VAROITUS!
Jos epäilet tai havaitset, että klusteri on WOR-tilassa, ota yhteys Dellin tekniseen tukeen ennen jatkotoimia.
TÄRKEÄ!
WOR voi ilmetä, kun asemat tai solmut vikaantuvat. Isilon Engineering neuvoo kuitenkin säilyttämään vioittuneet asemat tai solmut klusterissa, kunnes FlexProtect-toiminto on suoritettu onnistuneesti. Vaikka laitteessa on vika, jotkin tai kaikki tietolohkot saattavat silti olla luettavissa. Aseman tai solmun jättäminen liitetyksi klusteriin tarjoaa joustavuutta, jos tietoja yritetään palauttaa viallisesta laitteesta.
Cause
Selvitä ensin, onko klusteri tai solmu-/levyvaranto WOR-tilassa. Määritä ensin klusterille tai varangolle määritetty suojaustaso. Määritä seuraavaksi, kuinka monta epäonnistunutta solmua ja asemaa on olemassa. WOR-arvon laskennassa "vikaantunut" tarkoittaa laitteita, jotka ovat "alas" tai "kuolleessa" tilassa. Noudata seuraavassa osassa olevia ohjeita.
Resolution
Toimenpide
OneFS 7.2, 8.0, 9.0 ja uudemmat
- Siirry OneFS-hallintakäyttöliittymässä kohtaan Tiedostojärjestelmän > tallennusvarannot SmartPools>.
- Hae nykyinen suojaustaso Taso- ja solmupoolit -taulukon Pyydetty suojaus -sarakkeesta.
- Avaa SSH-yhteys solmuun ja kirjaudu root-tilillä.
- Selvitä, kuinka monta laitetta on kaatunut tai kuollut, suorittamalla seuraava komento:
isi_group_info Tulos näyttää seuraavanlaiselta. Jos laitteita on kaatunut tai kuollut, ne näkyvät tuloksessa "alas" tai "kuolleina".
Esimerkki down-solmusta: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, alas: 6 }
Esimerkki alasasemasta: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, alas: 2:10, 4:11, soft_failed: 2:10, 4:11
} Esimerkki vioittuneesta asemasta: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, kuollut: 2:10}
OneFS 7.1
- Siirry OneFS-hallintakäyttöliittymässä kohtaan File System Management > Storage Pools SmartPools>.
- Hae nykyinen suojaustaso solmuvarantojen taulukon Pyydetty suojaus -sarakkeesta.
- Avaa SSH-yhteys solmuun ja kirjaudu root-tilillä.
- Selvitä, kuinka monta laitetta on kaatunut tai kuollut, suorittamalla seuraava komento:
isi_group_info Tulos näyttää seuraavanlaiselta. Jos laitteita on kaatunut tai kuollut, ne näkyvät tuloksessa "alas" tai "kuolleina".
Esimerkki down-solmusta: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, alas: 6 }
Esimerkki alasasemasta: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, alas: 2:10, 4:11, soft_failed: 2:10, 4:11
} Esimerkki vioittuneesta asemasta: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, kuollut: 2:10}
Lisätietoja tuloksen tulkinnasta, mukaan lukien kuinka ymmärtää, ovatko alas- tai kuolleet laitteet asemia vai solmuja, katso: OneFS-ryhmän muutosten ymmärtäminen tai ryhmämuutosten tulkitseminen.
OneFS 7.0
- Siirry OneFS-hallintakäyttöliittymässä kohtaan File System Management > SmartPools > Summary.
- Hae nykyinen suojaustaso Tasot- ja solmupoolit -taulukon Suojaus-sarakkeesta .
- Avaa SSH-yhteys solmuun ja kirjaudu root-tilillä.
- Selvitä, kuinka monta laitetta on kaatunut tai kuollut, suorittamalla seuraava komento:
isi_group_info Tulos näyttää seuraavanlaiselta. Jos laitteita on kaatunut tai kuollut, ne näkyvät tuloksessa "alas" tai "kuolleina".
Esimerkki down-solmusta: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, alas: 6 }
Esimerkki alasasemasta: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, alas: 2:10, 4:11, soft_failed: 2:10, 4:11
} Esimerkki vioittuneesta asemasta: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, kuollut: 2:10}
OneFS 6.5
- Siirry OneFS-hallintakäyttöliittymässä kohtaan File System > SmartPools > -levyvarannot.
- Hae nykyinen suojaustaso Oletussuojaus-sarakkeesta .
- Avaa SSH-yhteys solmuun ja kirjaudu root-tilillä.
- Selvitä, kuinka monta laitetta on kaatunut tai kuollut, suorittamalla seuraava komento:
isi_group_info Tulos näyttää seuraavanlaiselta. Jos laitteita on kaatunut tai kuollut, ne näkyvät tuloksessa "alas" tai "kuolleina".
Esimerkki down-solmusta: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, alas: 6 }
Esimerkki alasasemasta: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, alas: 2:10, 4:11, soft_failed: 2:10, 4:11
} Esimerkki vioittuneesta asemasta: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, kuollut: 2:10}