Isilon: Bepalen of een Isilon cluster zich in een venster met risico op dataverlies bevindt
Summary: Bepalen of een Isilon cluster zich in een venster met risico op dataverlies bevindt.
Symptoms
Inleiding
Een Window Of Risk (WOR) treedt op wanneer voldoende apparaten in een cluster, knooppuntgroep of schijfgroep zijn uitgevallen om het beschermingsniveau te bereiken. Deze aandoening wordt ook wel 'bij bescherming' of 'overbescherming' genoemd. Wanneer een cluster of pool zich in een WOR bevindt, is er nog geen dataverlies opgetreden. Als er echter meer apparaten uitvallen, kan er gegevensverlies optreden. Of er al dan niet dataverlies optreedt, hangt af van verschillende factoren. Die factoren zijn onder meer; extra apparaten die falen voordat FlexProtect kan worden voltooid, of als de defecte apparaten de enige bron van de betreffende data waren.
In dit artikel wordt beschreven hoe beschermingsniveaus werken op het cluster en hoe u kunt zien of uw cluster zich in een WOR bevindt voor dataverlies.
Voor de WOR-berekening betekent "failed" apparaten die zich in een "down" of "dead" status bevinden. Apparaten die soft_failed zijn, worden niet meegeteld voor de beschermingsniveaus. Zie het gedeelte "Procedure" hieronder voor het bepalen van het aantal "down" of "dode" apparaten.
NOTITIE
De situatie waarbij meer apparaten uitvallen dan het aantal dat is opgegeven als het beschermingsniveau, wordt 'overbescherming' genoemd. In deze status kan de cluster of knooppuntgroep/schijfgroep niet langer alle data die daar zijn opgeslagen opnieuw maken.
Details
OneFS maakt gebruik van een N+M databeschermingsmodel. In de N+M notatie staat N voor het aantal knooppunten. De M staat voor het aantal gelijktijdige knooppunten, stations of knooppunt-/schijfgroep dat het cluster kan verwerken zonder data te verliezen. Met N+2-bescherming kan het cluster of de pool bijvoorbeeld twee schijven op verschillende knooppunten verliezen of twee knooppunten verliezen.
OneFS 6.5 en hoger ondersteunen ook een N+M:B-beveiligingsmodel. In N+M:B-notatie staat N voor het aantal knooppunten. M staat voor het aantal defecte of defecte schijven. De B staat voor het aantal niet werkende of mislukte knooppunten dat het cluster of de knooppuntgroep/schijfgroep kan verwerken zonder data te verliezen. Met N+3:1-bescherming kan het cluster of de pool bijvoorbeeld drie schijven of één knooppunt verliezen zonder data te verliezen.
Meerdere defecte of defecte schijven binnen één knooppunt vertegenwoordigen altijd een storing van één knooppunt (in plaats van meerdere schijfstoringen) voor de WOR-berekening. Hier zijn enkele voorbeelden van het gebruik van een cluster met 8 knooppunten met een beveiliging van N+3:1:
- Voorbeeld 1: In één cluster mislukken drie schijven, elk in een ander knooppunt. Dit plaatst het cluster in een WOR ("at protection").
- Voorbeeld 2: In één cluster zijn twee schijven binnen hetzelfde knooppunt uitgevallen. Aangezien de schijven zich in hetzelfde knooppunt bevinden, worden de storingen geteld als een fout met één knooppunt. Deze situatie plaatst het cluster ook in een WOR ("at protection").
Raadpleeg de OneFS-beheerhandleiding voor meer informatie over databeschermingsniveaus en hoe deze worden berekend.
VOORZICHTIGHEID!
Als u vermoedt of vaststelt dat uw cluster een WOR-status heeft, neemt u contact op met Dell Technical Support voor hulp voordat u verdere actie onderneemt.
BELANGRIJK!
Een WOR kan optreden wanneer schijven of knooppunten uitvallen. Isilon Engineering adviseert echter om defecte schijven of knooppunten in het cluster te houden totdat de FlexProtect-bewerking met succes is voltooid. Hoewel een apparaat defect is, kunnen sommige of alle datablokken nog steeds leesbaar zijn. Het toevoegen van de schijf of het knooppunt aan het cluster biedt flexibiliteit als een poging om data van het defecte apparaat te herstellen nodig is.
Cause
Om te bepalen of het cluster of de knooppuntgroep/schijfgroep zich momenteel in een WOR bevindt, moet u eerst het beschermingsniveau bepalen dat is geconfigureerd op het cluster of de groep. Bepaal vervolgens hoeveel defecte knooppunten en stations er zijn. Voor de WOR-berekening betekent "failed" apparaten die zich in een "down" of "dead" status bevinden. Volg de instructies in het betreffende gedeelte dat volgt.
Resolution
Procedure
OneFS 7.2, 8.0, 9.0 en hoger
- Ga in de OneFS-webbeheerinterface naar Bestandssysteem > Storage Pools > SmartPools.
- Verkrijg het huidige beschermingsniveau uit de tabel Niveaus en knooppuntgroepen in de kolom Aangevraagde bescherming .
- Open een SSH-verbinding met de node en log in met het "root"-account.
- Bepaal hoeveel apparaten "down" of "dead" zijn door de volgende opdracht uit te voeren:
isi_group_info De uitvoer ziet er ongeveer als volgt uit. Als er defecte of dode apparaten zijn, worden deze in de uitvoer aangegeven als "down" of "dead".
Voorbeeld van een down node: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, omlaag: 6 }
Example of a down drive: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, omlaag: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Example of a dead drive: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, dood: 2:10 }
OneFS 7.1
- Ga in de OneFS-webbeheerinterface naar Bestandssysteembeheer > Storagepools > SmartPools.
- Verkrijg het huidige beschermingsniveau uit de tabel Knooppuntgroepen in de kolom Aangevraagde bescherming .
- Open een SSH-verbinding met de node en log in met het "root"-account.
- Bepaal hoeveel apparaten "down" of "dead" zijn door de volgende opdracht uit te voeren:
isi_group_info De uitvoer ziet er ongeveer als volgt uit. Als er defecte of dode apparaten zijn, worden deze in de uitvoer aangegeven als "down" of "dead".
Voorbeeld van een down node: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, omlaag: 6 }
Example of a down drive: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, omlaag: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Example of a dead drive: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, dood: 2:10 }
Voor informatie over het interpreteren van de uitvoer, inclusief hoe u kunt begrijpen of de uitgeschakelde of dode apparaten schijven of knooppunten zijn, raadpleegt u: Inzicht in OneFS groepswijzigingen of interpretatie van groepswijzigingen.
OneFS 7.0
- Ga in de OneFS-webbeheerinterface naar Overzicht van SmartPools > voor bestandssysteembeheer>.
- Verkrijg het huidige beschermingsniveau uit de tabel Niveaus en knooppuntgroepen in de kolom Bescherming .
- Open een SSH-verbinding met de node en log in met het "root"-account.
- Bepaal hoeveel apparaten "down" of "dead" zijn door de volgende opdracht uit te voeren:
isi_group_info De uitvoer ziet er ongeveer als volgt uit. Als er defecte of dode apparaten zijn, worden deze in de uitvoer aangegeven als "down" of "dead".
Voorbeeld van een down node: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, omlaag: 6 }
Example of a down drive: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, omlaag: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Example of a dead drive: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, dood: 2:10 }
OneFS 6.5
- Ga in de OneFS-webbeheerinterface naar Bestandssysteem > SmartPools > schijfgroepen.
- Verkrijg het huidige beschermingsniveau in de kolom Standaardbescherming .
- Open een SSH-verbinding met de node en log in met het "root"-account.
- Bepaal hoeveel apparaten "down" of "dead" zijn door de volgende opdracht uit te voeren:
isi_group_info De uitvoer ziet er ongeveer als volgt uit. Als er defecte of dode apparaten zijn, worden deze in de uitvoer aangegeven als "down" of "dead".
Voorbeeld van een down node: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, omlaag: 6 }
Example of a down drive: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, omlaag: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Example of a dead drive: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, dood: 2:10 }