Article Number: 000139251

Dubbelfel och punkteringar på RAID-disksystem

Summary: RAID-disksystem är inte immuna mot datafel. Den här artikeln innehåller rekommendationer för att förhindra och minska dessa problem.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Symptoms

Den här artikeln innehåller information om datafel, dubbelfel och punkteringar på RAID-diskar. Dessutom finns det rekommendationer för att förhindra/minska dessa problem, och hur man löser problem när de har inträffat.

Innehållsförteckning

Datafel och dubbelfel
Punkteringar: Vad är de och hur orsakas de?
Förebygga problem innan de inträffar och lösa punkteringar när de inträffat

Kapitel 1: Datafel och dubbelfel

RAID-disksystem är inte immuna mot datafel. RAID-styrenheten och den inbyggda programvaran på hårddisken innehåller funktioner för att upptäcka och korrigera många typer av datafel innan de skrivs till ett disksystem/en disk. Om inaktuell inbyggd programvara används kan felaktiga data skrivas till ett disksystem/en disk eftersom felhanterings-/felkorrigeringsfunktionerna som finns i de senaste versionerna av den fasta programvaran saknas.

Datafel kan också orsakas av felaktiga fysiska block. De kan till exempel uppstå när läs-/skrivhuvudena påverkar den snurrande skivan (en så kallad ”huvudkrock”). Block kan också bli dåliga med tiden på grund av skivans förmåga att magnetiskt lagra bitar på en viss plats. Felaktiga block som orsakas av degraderade skivor går ofta att läsa. Sådana felaktiga block kan bara detekteras tillfälligt eller med utökad diagnostik på enheterna.

Ett felaktigt block, även kallat en felaktig logisk blockadress (LBA), kan också orsakas av logiska datafel. Detta inträffar när data skrivs felaktigt till en disk även om det rapporteras som en lyckad skrivning. Dessutom kan data som lagras på enheten ändras oavsiktligt. Ett exempel är en ”bit flip” som kan uppstå när läs-/skrivhuvudena passerar över eller skriver till en närliggande plats och gör att data i form av nollor och ettor ändras till ett annat värde. Ett sådant tillstånd medför att enhetligheten i data skadas. Värdet för data på ett visst block skiljer sig från ursprungliga data och kanske inte längre matchar kontrollsumman av data. Den fysiska LBA-enheten är bra och kan skrivas till, men den innehåller för närvarande felaktiga data och kan tolkas som ett felaktigt block.

Felaktiga LBA-filer rapporteras vanligtvis som Sense Code 3/11/0. Sense Key 3 är ett medelstort fel. Additional Sense Code och Additional Sense Code Qualifier på 11/00 definieras som ett läsfel som inte kan korrigeras. Det har inte gjorts något försök att korrigera blocket och det har inte fastställts huruvida det felaktiga blocket beror på en fysisk defekt på enhetsskivan eller ett datafel på grund av andra orsaker. Sense Code 3/11/00 innebär inte automatiskt att den fysiska enheten har gått sönder eller att den bör bytas ut.

Dells maskinvarubaserade RAID-styrenheter har funktioner som Patrol Read och Check Consistency för att korrigera många datafelsscenarier. Patrol Read fungerar som standard som en automatiserad bakgrundsuppgift som kontrollerar alla individuella block på en hårddisk för att säkerställa att data kan läsas på rätt sätt. Patrol Read försöker korrigera felaktiga block eller mappa om block som inte går att korrigera till reserverade block. Check Consistency är en funktion som aktiveras manuellt (den kan även schemaläggas) och jämför alla enheter i ett disksystem mot varandra för att se till att data och redundans överensstämmer. Till exempel tre hårddiskar i disksystemet RAID 5 jämförs för att säkerställa att data och paritet använder rätt värden. Om ett enda fel detekteras används återstående data och/eller paritet för att skriva om och korrigera det felaktiga värdet. På samma sätt kan data på en disk i en RAID 1-matris jämföras med den andra enheten för att säkerställa att data speglas korrekt.

Ett enda fel i ett RAID-disksystem kan, om det inte korrigeras, orsaka allvarligare fel i disksystemet, särskilt när ett andra fel uppstår. Ett eller flera fel leder inte till förlust av data, så länge systemet förblir i ett optimalt tillstånd. Det finns fortfarande tillräckligt med data och redundans för att fungera normalt medan disksystemet är optimalt.

På grund av styrenhetens förmåga att korrigera fel under normal drift är det inte alltid lätt att upptäcka underliggande problem i data. Det finns sällan fel eller varningar i styrenhetsloggen, maskinvaruloggar eller operativsystemets händelseloggar, när en eller flera enstaka felvillkor har uppfyllts. Av denna anledning kan ett disksystem verka fungera normalt under mycket lång tid, trots förekomsten av konsekvensfel och/eller enstaka fel.

SLN111497_en_US__11

Bild 1: Flera enkla fel i ett RAID 5-disksystem – optimala disksystem

som visas i bild 1: disksystemet har flera fel. Men eftersom det bara finns ett enda fel i någon av strimlorna kan styrenheten ändå få åtkomst till alla data genom redundansen i RAID 5. Om felet uppstår på paritetsegmentet är alla data intakta och felet har ingen inverkan på läsåtgärder. Om felet uppstår i ett datasegment bör en XOR-jämförelse ske mellan fungerande data och fungerande paritetsdelar för att beräkna om felaktiga eller saknade datasegment. I båda fallen finns tillräckligt med redundans för att få åtkomst till alla data eftersom det bara finns ett enda fel i någon av strimlorna.

När en eller flera enheter i ett RAID-disksystem innehåller datafel, och en annan enhet i disksystemet inte längre är aktiv medlem i disksystemet på grund av diskfel, främmande konfiguration, borttagning av enhet eller någon annan orsak skapar detta ett tillstånd som kallas "Dubbelfel". Ett dubbelfel leder till omedelbar dataförlust av all information i de berörda strimlorna.

SLN111497_en_US__22

Bild 2: Dubbelfel med felaktig enhet (data i strimlorna 1 och 2 går förlorade) – Degraderat disksystem

Det är möjligt att ett dubbelfel kan uppstå när disksystemet förblir i optimalt tillstånd. Detta skulle inträffa med identiska felaktiga LBA-adresser på flera hårddiskar. En sådan status vore extremt ovanlig, med tanke på det stora antalet LBA-adresser på dagens större hårddiskar. Det vore mycket osannolikt att samma LBA på flera hårddiskar blir "dålig" samtidigt.

Genom att utföra regelbundna checkkonsekvensåtgärder korrigeras enskilda fel, oavsett om det är ett fysiskt felaktigt block eller ett logiskt datafel. Enhetlighetskontrollen minskar dessutom risken för ett dubbelfel i händelse av ytterligare fel. När det inte finns mer än ett enda fel i en strimlan kan en enhetlighetskontroll nästan alltid eliminera felet.

Överst på sidan

Kapitel 2: Punkteringar: Vad är de och hur orsakas de?

En punktering är en funktion som ingår i Dells PERC-styrenheter. Den har utformats för att styrenheten ska återställa disksystemets redundans trots förlust av data som orsakas av dubbelfel. En punktering kallas även ”Rebuild with Errors” (återskapa med fel). RAID-styrenheten upptäcker ett dubbelfel, och eftersom det inte finns tillräckligt med redundans för att återställa data i påverkade strimlor skapar styrenheten en punktering i strimlan och fortsätter återskapa.

Alla tillstånd som leder till att data är otillgängliga i samma strimla på mer än en disk är dubbelfel.
Dubbelfel leder till förlust av alla data inom den berörda strimlan.
Alla punkteringar är dubbelfel men alla dubbelfel är INTE punkteringar.

Bild 3: Punkterade strimlor (data i strimlorna 1 och 2 går förlorade på grund av dubbelfel) – Optimalt disksystemMed

punkteringsfunktionen skulle disksystemet byggas om och lämna disksystemet i degraderat läge. I vissa fall kan felen få ytterligare diskar att sluta fungera och leda till att disksystemet inte fungerar och får statusen offline. Punktering av disksystem har ingen inverkan på möjligheten att starta eller komma åt information på disksystemet. Eventuella skador eller förlorade data på grund av dubbelfel har redan inträffat.

Punkteringar inträffar i någon av de här situationerna:

Existerande dubbelfel (data som redan förlorats)
- Datafel på en onlinedisk överförs (kopieras) till en återskapad disk

Dubbelfel uppstår inte (data går förlorade när ett andra fel inträffar)
- Om ett felaktigt block uppstår på en onlinedisk i nedgraderad status är LBA punkterat

Den här fördelen med punktering av disksystem ser till att systemet är tillgängligt i produktionen och disksystemets redundans återställs. Data i den berörda strimlan förlorades oavsett om punkteringen uppstår eller inte. Den främsta nackdelen med LSI-metoden är att medan disksystemet har en punktering fortsätter fel som inte kan korrigeras att uppstå när påverkade (eventuella) data används.

En punktering kan uppstå på tre platser. För det första kan en punktering uppstå i tomt utrymme som inte innehåller några data. Strimlan kan inte användas men eftersom det inte finns några data på den platsen har den ingen betydande inverkan. Eventuella försök att skriva till en punkterad strimla av ett operativsystem misslyckas och alla data skrivs till en annan plats.

För det andra kan en punktering uppstå i en strimla med data som inte är lika kritisk som en README.TXT-fil. Om aktuella data inte används genereras inga fel under normal I/O. Försök att utföra en systemsäkerhetskopia misslyckas med att säkerhetskopiera alla filer som påverkas av en punktering. När du utför en Check Consistency eller Patrol Read genereras Sense-kod: 3/11/00 för tillämplig LBA och/eller strimlor.

För det tredje kan en punktering uppstå i datautrymme som används. I så fall kan förlorade data ge upphov till en rad fel. Dessa fel kan vara mindre fel som inte påverkar en produktionsmiljö negativt. Dessa fel kan också vara mer allvarliga och förhindra systemet från att starta ett operativsystem, eller göra att program inte fungerar.

Ett punkterat disksystem behöver så småningom tas bort och återskapas för att ta bort punkteringen. Den här proceduren leder till att alla data tas bort. Data skulle då behöva återskapas eller återställas från en säkerhetskopia när punkteringen har tagits bort. Punkteringen kan lösas vid en tidpunkt som är mer fördelaktig för verksamhetens behov.

Om data i en punkterad strimlor används fortsätter felen att rapporteras mot de berörda felaktiga LBA:erna utan möjlig korrigering. Slutligen (inom några minuter, dagar, veckor, månader etc.) fylls tabellen Bad Block Management (BBM) på, vilket leder till att en eller flera diskar flaggas som förutsägbart fel. På bild 3 ser du att disk 0 brukar vara den disk som flaggas som förutsägbart fel på grund av fel som överförs från disk 1 och 2. Disk 0 kanske faktiskt fungerar normalt, och om du byter ut disk 0 kommer det bara att leda till att den också flaggas som förutsägbart fel.

En checkkonsekvenskontroll som utförs efter en punktering löser inte problemet. Det är därför det är mycket viktigt att utföra Check Consistency regelbundet. Det är extra viktigt innan du byter diskar, när det är möjligt. Disksystemet måste vara i optimalt tillstånd för att utföra konsekvenskontrollen.

Ett RAID-disksystem som innehåller ett enda datafel i samband med ytterligare ett fel, t.ex. ett hårddiskfel, orsakar en punktering när den felaktiga enheten eller ersättningsenheten återskapas i disksystemet. Ett exempel är när ett optimalt RAID 5-disksystem innehåller tre medlemmar: disk 0, 1 och 2. Om disk 0 slutar fungera (bild 2) och byts ut återskapas data- och paritetsinformation på diskarna 1 och 2 för att bygga om den saknade informationen till den nya disken 0. Men om ett datafel förekommer på disk 1 när felet har återskapats finns det inte tillräckligt med information inom strimlan för att återskapa saknade data i den strimlan. Disk 0 har inga data, disk 1 har felaktiga data och disk 2 har fungerande data eftersom de återskapas. Det finns flera fel i strimlan. Disk 0 och 1 innehåller inga giltiga data, så data i strimlan kan inte återställas och går därför förlorade. Resultatet enligt bild 3 är att punkteringarna (i strimla 1 och 2) skapas under återskapandeprocessen. Felen skickas till disk 0.

Genom att punktera disksystemet återställs redundansen och det återställs till optimal status. Det skyddar disksystemet från ytterligare dataförluster i händelse av ytterligare fel eller hårddiskfel.

Överst på sidan

Kapitel 3: Förebygga problem innan de inträffar och lösa punkteringar när de inträffat

Det kan vara lockande att tänka: ”Om det inte är sönder behöver det inte åtgärdas”. Trots att det kan stämma i andra sammanhang rekommenderar vi att du utför underhåll för att skydda och hantera delsystem för lagring på bästa sätt. Proaktivt underhåll kan korrigera befintliga fel och förhindra att vissa fel inträffar. Det går inte att förhindra att alla fel uppstår, men de flesta allvarliga felen kan lindras avsevärt med proaktivt underhåll. Gör följande för lagring och RAID-delsystem:

Uppdatera drivrutiner och inbyggd programvara på styrenheter, hårddiskar, bakplan och andra enheter
Utför Check Consistency med jämna mellanrum
Granska loggar för indikationer på problem

Det behöver inte vara en teknisk granskning på hög nivå, men kan helt enkelt vara en hastig översikt över loggarna som letar efter mycket uppenbara indikationer på potentiella problemKontact
Dells tekniska support med eventuella frågor eller problemOne

av de mest kritiska sakerna som bör göras är att se till att den fasta programvaran hålls uppdaterad. Den inbyggda programvaran är den plats där all logik för användning av en enhet finns. Det ger dig samma funktioner på enheten, tillsammans med en mängd felhanterings- och korrigeringsfunktioner. Genom att hålla inbyggd programvara aktuell kan du få bättre prestanda och färre fel. Nya funktioner och förbättringar kan också läggas till via en uppdatering av den fasta programvaran.

Fast programvara kan finnas på flera ställen. RAID-styrenheter innehåller inbyggd programvara, liksom de enskilda hårddiskarna på ett system eller i ett disksystem. Bakplan och externa höljen innehåller också inbyggd programvara som kan påverka användningen av enheter och disksystem som finns i dem.

En annan förebyggande rekommendation är att utföra en "Check Consistency". Kontrollen görs manuellt eftersom den förbrukar en del av den totala tillgängliga bandbredden på RAID-styrenheten. Enhetlighetskontrollen kan dock schemaläggas en tid då den har minst inverkan på prestanda.

Konsekvenskontrollen kontrollerar om det finns felaktiga block på enheterna, men framför allt jämför den data i disksystemet för att se till att alla komponenter stämmer överens. När den hittar ett problem fastställer den hur data ser ut och korrigerar dem genom att markera data på andra enheter i disksystemet. Korrigeringen av datafel när de är relativt små är det bästa sättet att minska risken för punkteringar som orsakas av befintliga datafel i samband med ett andra fel. Dubbelfel och punkteringar kan leda till förlust av produktivitet under den tid som krävs för att återställa disken/diskarna och data till ett fungerande läge eller till och med fullständig förlust av alla data.

När ett dubbelfel eller en punktering uppstår sker ofta en viss dataförlust. Om de här felen är i blanksteg eller datautrymme som inte är så viktigt är den omedelbara inverkan på data i en produktionsmiljö tämligen liten. Men förekomsten av dessa fel kan innebära att det finns ett allvarligare problem. Maskinvarufel och inaktuell inbyggd programvara kan kräva omedelbar uppmärksamhet.

Om ett känt eller misstänkt dubbelfel eller en punktering föreligger följer du dessa steg för att minimera risken för mer allvarliga problem:

Utför en enhetlighetskontroll (disksystemet måste vara optimalt)
Kontrollera eventuella maskinvaruproblem
Kontrollera styrenhetsloggen
Kör maskinvarudiagnostik
Kontakta Dells tekniska support vid behov

Om dessa steg har utförts, så finns det ytterligare problem. Punkteringar kan ge statusen ”förutsägbart fel” i hårddiskar över tid. Datafel som överförs till en disk rapporteras som mediefel på enheten, trots att inga faktiska maskinvaruproblem förekommer. Varje gång LBA används rapporteras ett fel. När felloggen är full rapporterar enheten sig själv som förutsägbart fel.

En enda punkterad LBA på en enhet kan rapporteras flera gånger. Beroende på antalet punkteringar kan flera diskar i ett disksystem rapporteras som förutsägbart fel. Genom att byta ut disken med förutsägbart fel skickas de befintliga punkteringarna till den nya disken, som så småningom leder till att den nya disken också flaggas som förutsägbart fel. I sådana fall är den enda korrigerande åtgärden att lösa punkteringstillståndet.

När vi tittar på bild 3 ser vi att det finns en punktering på strimlorna 1 och 2. Du kan inte lösa problemet genom att byta hårddiskar eftersom det inte finns tillräcklig dataredundans för att återskapa originaldata. Alla data i de punkterade strimlorna går förlorade (såvida de inte sparas i en tidigare säkerhetskopia). Kom ihåg att det är ett dubbelfel och inte en punktering som leder till att data försvinner. En punktering återställer redundansen i ett disksystem med ett dubbelfel.

Obs! Här är den process som används för att lösa de flesta punkteringar. Det är inte säkert att du behöver utföra alla dessa steg för att lösa problemet. Om dessa steg inte löser problemet kontaktar du Dells tekniska support för ytterligare hjälp.

Varning! Om du följer dessa steg förlorar du alla data i disksystemet. Kontrollera att du har förberett för att återställa från säkerhetskopia eller annat innan du följer dessa steg. Var försiktig så att de här stegen inte påverkar andra disksystem.

Släng bevarad cachelagring (om sådan finns)
Rensa främmande konfigurationer (om sådana finns)
Ta bort disksystem
Flytta diskpositionerna ett steg (flytta disk 0 till plats 1, disk 1 till plats 2, och disk 2 till plats 0 enligt bild 1)
Återskapa disksystemet enligt önskemål
Utför en fullständig initiering av disksystemet (inte en snabb initiering)
Utför en konsekvenskontroll av diskmatrisen

Om enhetlighetskontrollen slutförs utan fel kan du förutsätta att disksystemet fungerar som det ska och att punkteringen har eliminerats. Data kan nu återställas till den felfria diskmatrisen.

I allvarligare fall kan problemet inte lösas och fel kvarstår trots att du följer dessa steg. Om dessa steg inte löser ett problem kontaktar du Dells tekniska support för ytterligare hjälp.

Du kan behöva analysera punkteringar mer i detalj för att fastställa gemensamma diskar. I bild 3 visar styrenhetsloggen till exempel en punktering mellan diskarna 0 och 1 och en punktering mellan diskarna 0 och 2. Disk 0 är den gemensamma disken. Följ samma steg som ovan, men börja med att ta bort de gemensamma diskarna. Exemplet i bild 1 visar att du tar bort disk 0 och följer beskrivningen. Skapa disksystemet med hjälp av återstående diskar (1 och 2). När det är klart och efter en enhetlighetskontroll som visar att disksystemet fungerar som det ska lägger du till disk 0 igen och utför stegen igen med alla enheter, eller med RLM (RAID-nivåmigrering) och/eller OCE (Online Capacity Expansion) för att lägga till den/de återstående enheten/enheterna) i disksystemet.

Eventuella enheter som har flaggats med förutsägbart fel ska tas bort och ingår inte i återställningsprocessen. Titta på bild 3: om disk 0 hade förutsägbart fel ska du ta bort den här disken. Sedan utför du de steg som beskrivs ovan. Eftersom det bara finns två diskar kvar är RAID-disksystemet som skapas RAID 1 istället för RAID 5. När du har bytt ut disk 0 (på grund av förutsägbart fel) utför du stegen igen, inklusive alla tre enheterna, eller lägger till disk 0 i det befintliga disksystemet med RLM och ändrar det från en RAID 1 med två enheter till en RAID 5 med tre enheter.

Processen kan vara skrämmande, särskilt med tanke på risken för dataförlust. Talesättet ”bättre att stämma i bäcken än i ån” kan tillämpas här. Erfarenheten visar att nästan alla dubbelfel och punkteringar kunde ha undvikits genom att utföra förebyggande underhåll på RAID-maskinvara och disksystem.

Obs! Genom att effektivt övervaka systemet kan problem upptäckas och korrigeras i tid, vilket också minskar risken för allvarligare problem.

Relaterad artikel
PERC – Så åtgärdar du en RAID-punktering

Överst på sidan

Cause

Resolution

Article Properties

Affected Product

Servers

Last Published Date

25 Mar 2022

Version

Article Type

Solution

Welcome

Welcome to Dell