Isilon: Så här tar du reda på om ett Isilon-kluster löper risk för dataförlust
Summary: Så här tar du reda på om ett Isilon-kluster löper risk för dataförlust.
Symptoms
Introduktion
Ett riskfönster (WOR) inträffar när tillräckligt många enheter i ett kluster eller en nodpool eller diskpool har misslyckats för att skyddsnivån ska nås. Detta tillstånd är också känt som "vid skydd" eller "överbeskydd". När ett kluster eller en pool finns i en WOR har dataförlust ännu inte inträffat. Men om fler enheter slutar fungera kan data gå förlorade. Huruvida dataförlust uppstår eller inte beror på olika faktorer. Dessa faktorer inkluderar; ytterligare enheter som misslyckas innan FlexProtect kan slutföras eller om de felaktiga enheterna var den enda källan till data i fråga.
Den här artikeln beskriver hur skyddsnivåer fungerar i klustret och hur du kan se om klustret är i en WOR för dataförlust.
Vid WOR-beräkning innebär "fel" enheter som är i ett "nere" eller "dött" läge. Enheter som är "soft_failed" räknas inte in i skyddsnivåerna. Se avsnittet "Procedur" nedan för hur du fastställer antalet enheter som är "nere" eller "döda".
NOT
Tillståndet där fler enheter misslyckas än det antal som anges som skyddsnivå kallas "överskydd". I det här tillståndet kan klustret eller nodpoolen/diskpoolen inte längre återskapa alla data som lagras där.
Detaljer
OneFS använder en N+M-dataskyddsmodell. I N+M-notationen representerar N antalet noder. M representerar antalet samtidiga noder, enheter eller nodpool/diskpool som klustret kan hantera utan att förlora data. Med N+2-skydd kan klustret eller poolen till exempel förlora antingen två enheter på olika noder eller förlora två noder helt och hållet.
OneFS 6.5 och senare har även stöd för en N+M:B-skyddsmodell. I N+M:B-notation representerar N antalet noder. M representerar antalet driftavbrott eller driftfel. B representerar antalet neda eller misslyckade noder som klustret eller nodpoolen/diskpoolen kan hantera utan att förlora data. Med N+3:1-skydd kan till exempel klustret eller poolen förlora tre enheter eller en nod utan att förlora data.
Flera felaktiga eller trasiga enheter inom en enda nod representerar alltid ett fel på en enskild nod (i stället för fel på flera enheter) för WOR-beräkning. Här är några exempel med ett kluster med 8 noder med N+3:1-skydd:
- Exempel 1: I ett enda kluster slutar tre enheter att fungera, var och en i olika noder. Detta placerar klustret i en WOR ("at protection").
- Exempel 2: I ett enda kluster har två enheter inom samma nod slutat fungera. Eftersom enheterna finns i samma nod räknas felen som ett fel på en enskild nod. Den här situationen försätter också klustret i en WOR ("vid skydd").
Mer information om dataskyddsnivåer och hur de beräknas finns i administrationshandboken för OneFS.
FÖRSIKTIGHET!
Om du misstänker eller fastställer att klustret är i ett WOR-tillstånd kontaktar du Dells tekniska support för att få hjälp innan du vidtar ytterligare åtgärder.
VIKTIG!
En WOR kan inträffa när enheter eller noder slutar fungera. Isilon Engineering rekommenderar dock att du behåller trasiga enheter eller noder i klustret tills FlexProtect-åtgärden har slutförts. Även om en enhet har misslyckats kan vissa eller alla datablock fortfarande vara läsbara. Att lämna enheten eller noden ansluten till klustret ger flexibilitet om ett försök att återställa data från den felaktiga enheten blir nödvändigt.
Cause
Om du vill ta reda på om klustret eller nodpoolen/diskpoolen för närvarande finns i ett WOR måste du först fastställa vilken skyddsnivå som konfigurerats för klustret eller poolen. Fastställ sedan hur många felaktiga noder och enheter som finns. Vid WOR-beräkning innebär "fel" enheter som är i ett "nere" eller "dött" läge. Följ anvisningarna i lämpligt avsnitt som följer.
Resolution
Procedur
OneFS 7.2, 8.0, 9.0 och senare
- I OneFS-webbadministratörsgränssnittet går du till SmartPools > för filsystem > för lagringspooler.
- Hämta den aktuella skyddsnivån från tabellen Nivåer & nodpooler i kolumnen Begärt skydd .
- Öppna en SSH-anslutning till noden och logga in med rotkontot.
- Ta reda på hur många enheter som är nere eller döda genom att köra följande kommando:
isi_group_info Utdata ser ut ungefär så här. Om det finns nere eller döda enheter indikeras de som "nere" eller "döda" i utgången.
Exempel på en nednod: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, ner: 6 }
Exempel på en neddriven enhet: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, ner: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Exempel på en död enhet: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, döda: 2:10 }
OneFS 7.1
- I OneFS-webbadministrationsgränssnittet går du till Filsystemhantering > Lagringspooler SmartPools>.
- Hämta den aktuella skyddsnivån från tabellen Nodpooler i kolumnen Begärt skydd .
- Öppna en SSH-anslutning till noden och logga in med rotkontot.
- Ta reda på hur många enheter som är nere eller döda genom att köra följande kommando:
isi_group_info Utdata ser ut ungefär så här. Om det finns nere eller döda enheter indikeras de som "nere" eller "döda" i utgången.
Exempel på en nednod: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, ner: 6 }
Exempel på en neddriven enhet: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, ner: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Exempel på en död enhet: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, döda: 2:10 }
Information om hur du tolkar utdata, inklusive hur du förstår om de nedlagda eller döda enheterna är enheter eller noder, finns i: Förstå OneFS-gruppändringar eller tolka gruppändringar.
OneFS 7.0
- I OneFS-webbadministratörsgränssnittet går du till Sammanfattning av SmartPools > för filsystemhantering>.
- Hämta den aktuella skyddsnivån från tabellen Nivåer & Nodpooler i kolumnen Skydd .
- Öppna en SSH-anslutning till noden och logga in med rotkontot.
- Ta reda på hur många enheter som är nere eller döda genom att köra följande kommando:
isi_group_info Utdata ser ut ungefär så här. Om det finns nere eller döda enheter indikeras de som "nere" eller "döda" i utgången.
Exempel på en nednod: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, ner: 6 }
Exempel på en neddriven enhet: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, ner: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Exempel på en död enhet: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, döda: 2:10 }
OneFS 6.5
- I OneFS-webbadministrationsgränssnittet går du till Filsystem > SmartPools > diskpooler.
- Hämta den aktuella skyddsnivån från kolumnen Standardskydd .
- Öppna en SSH-anslutning till noden och logga in med rotkontot.
- Ta reda på hur många enheter som är nere eller döda genom att köra följande kommando:
isi_group_info Utdata ser ut ungefär så här. Om det finns nere eller döda enheter indikeras de som "nere" eller "döda" i utgången.
Exempel på en nednod: efs.gmp.group: { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, ner: 6 }
Exempel på en neddriven enhet: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, ner: 2:10, 4:11, soft_failed: 2:10, 4:11 }
Exempel på en död enhet: efs.gmp.group: { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, döda: 2:10 }