文章编号: 000139251

Dvojité chyby a narušení v polích RAID

摘要: Pole RAID nejsou imunní vůči chybám dat. Tento článek obsahuje doporučení, jak těmto problémům předejít a zmírnit jejich dopady.

本文可能已自动翻译。如果您对其质量有任何反馈，请使用此页面底部的表单告知我们。

文章内容

症状

Tento článek uvádí informace o chybách dat, dvojitých chybách a narušeních v poli RAID. Kromě toho zde jsou uvedena doporučení, jak těmto problémům zabránit nebo zmírnit jejich dopady a jak řešit potíže poté, co k nim dojde.

Obsah

Chyby dat a dvojité chyby
Narušení: O co se jedná a co je způsobuje?
Zabránění problémům dříve, než nastanou, a řešení narušení poté, co k nim dojde

Kapitola 1: Chyby dat a dvojité chyby

Pole RAID nejsou vůči chybám dat imunní. Řadič RAID a firmware pevného disku obsahují funkce, které umožňují rozpoznat a napravit mnoho typů chyb dat předtím, než dojde k jejich zápisu do pole či na disk. K zápisu nesprávných dat do pole či na disk může vést používání zastaralého firmwaru, protože neobsahuje funkce zpracování či nápravy chyb, které jsou dostupné v nejnovějších verzích firmwaru.

Chyby dat mohou být také způsobeny vadnými fyzickými bloky. K tomu může dojít například tehdy, když čtecí/zapisovací hlava spadne na točící se plotnu (tzv. „Head Crash“). Bloky také mohou začít být vadné v průběhu doby v důsledku postupného zhoršování schopnosti plotny magneticky uchovávat bity na konkrétním místě. Vadné bloky způsobené postupným zhoršováním plotny je často možné úspěšně přečíst. Takový vadný blok je možné rozpoznat pouze občas nebo pomocí rozsáhlé diagnostiky disků.

Vadný blok, známý také jako vadná adresa logického bloku (LBA), může být způsoben také logickými chybami dat. K nim dochází, když se data na disk zapíšou nesprávně, i když se nahlásí úspěšný zápis. Kromě toho se dobrá data uložená na disku mohou neúmyslně změnit. Jedním takovým příkladem je překlopení bitu („bit flip“), ke kterému může dojít, když čtecí/zapisovací hlava přejede přes blízké místo nebo na něj zapíše a způsobí změnu dat v podobě nul a jedniček na jinou hodnotu. Takový stav způsobí narušení „konzistence“ dat. Hodnota dat na konkrétním bloku je jiná než původní data a už neodpovídá kontrolnímu součtu dat. Fyzická adresa logického bloku je v pořádku a je možné do ní úspěšně zapisovat, v danou chvíli ale obsahuje nesprávná data a může být interpretována jako vadný blok.

Vadné logické oddíly jsou běžně hlášeny jako Sense Code 3/11/0. Klíč zjišťování 3 je Medium Error (Střední chyba). Další klíč zjišťování a další kvalifikátor zjišťování 11/00 je definovaný jako Unrecovered Read Error (Neobnovená chyba čtení). Nedochází k žádnému pokusu o opravu bloku a nedošlo k žádnému rozhodnutí, jestli je vadný blok výsledkem fyzického defektu na plotně disku nebo chyby dat způsobené jinými příčinami. Přítomnost označení Sense Code 3/11/00 automaticky neznamená, že fyzický disk selhal nebo že by měl být nahrazen.

Hardwarové řadiče RAID společnosti Dell nabízejí funkce, jako je Patrol Read a Check Consistency, které umožňují opravit řadu chyb dat. Funkce Patrol Read ve výchozím nastavení pracuje jako automatizovaná úloha na pozadí, která kontroluje všechny jednotlivé bloky na pevném disku, aby zaručila, že je možné data správně číst. Funkce Patrol Read se pokusí napravit bloky, které jsou vadné, nebo přemapovat neopravitelné bloky na rezervované bloky. Kontrola konzistence je ručně aktivovaná funkce (je možné ji také naplánovat), která porovnává všechny disky v poli vůči sobě navzájem, aby zaručila, že data a redundance vzájemně odpovídají. Například se porovnají tři disky v poli RAID 5, aby se zaručilo, že data a parita používají správné hodnoty. Pokud je rozpoznána samostatná chyba, zbývající data či parita se použijí k přepsání a opravě chybné hodnoty. Obdobně se v poli RAID 1 porovnají data s druhým diskem, aby se zaručilo, že se správně zrcadlí.

Jakákoliv samostatná neopravená chyba v poli RAID může způsobit vážné chyby v poli, zejména v případě druhé chyby. Jedna či více samostatných chyb nezpůsobí ztrátu dat, dokud pole zůstává v optimálním stavu. Stále existují dostatečná data plus redundance, aby mohlo pole fungovat normálně, jestliže je v optimálním stavu.

Díky schopnosti řadiče opravovat chyby během běžného provozu není vždy snadné zjistit, jestli jsou v datech přítomné nějaké problémy na pozadí. V protokolu řadiče, protokolech hardwaru nebo protokolech událostí operačního systému se chyby či výstrahy objevují jen výjimečně, pokud existují podmínky jedné či více samostatných chyb. Z toho důvodu se může po dlouhou dobu zdát, že pole pracuje normálně, bez ohledu na přítomnost chyb konzistence nebo samostatných chyb.

SLN111497_en_US__11

Obrázek 1: Více samostatných chyb v poli RAID 5 – optimální pole

Jak je znázorněno na obrázku 1, pole obsahuje více chyb. Protože se však jedná jen o samostatnou chybu v některém z prokládání, řadič má díky redundanci pole RAID 5 stále přístup ke všem datům. Jestliže k chybě došlo na segmentu parity, všechna data jsou neporušená a chyba nemá žádný dopad na operace čtení. Jestliže k chybě došlo na segmentu dat, musí dojít k porovnání XOR mezi dobrými data a dobrými kusy parity, aby se scházející/vadný segment dat přepočítal. Protože jde ale jen o samostatnou chybu v některém prokládání, je v každém případě dostupná dostatečná redundance, která kdykoliv umožňuje úspěšný přístup k datům.

Když jeden či více disků v poli RAID obsahují chyby dat a jiný disk v poli už není vzhledem k závadě, neznámé konfiguraci, odebrání disku nebo z jiného důvodu aktivním členem pole, vede to ke stavu zvanému „dvojitá chyba“. Stav dvojité chyby vede k okamžité ztrátě dat libovolných informací v narušených prokládáních.

SLN111497_en_US__22

Obrázek 2: Dvojitá chyba s chybným diskem (ztráta dat v prokládáních 1 a 2) – pole se sníženým výkonem

Je možné, že se u pole v optimálním stavu vyskytne stav dvojité chyby. K tomu by došlo při výskytu totožných vadných adres logického bloku na několika pevných discích. Takový stav by byl mimořádně vzácný, vezme-li se do úvahy ohromný počet adres logického bloku na dnešních velkých pevných discích. Bylo by velmi nepravděpodobné, aby byla „vadná“ ta samá adresa logického bloku na několika pevných discích.

Provádění pravidelných operací kontroly konzistence opraví jednotlivé chyby, ať už jde o fyzický vadný blok nebo logickou chybu dat. Kontrola konzistence také zmírní riziko stavu dvojité chyby v případě dalších chyb. Když na kterémkoliv jednom prokládání neexistuje víc než jedna samostatná chyba, potom může kontrola konzistence chybu téměř vždy eliminovat.

Zpět na začátek

Kapitola 2: Narušení: O co se jedná a co je způsobuje?

Narušení je funkce řadičů PERC společnosti Dell umožňující řadiči obnovit redundanci pole, i když došlo ke ztrátě dat způsobené stavem dvojité chyby. Další název pro narušení je „obnovení s chybami“. Řadič RAID rozpozná dvojitou chybu, a protože není dostatečná redundance pro obnovení dat v příslušném prokládání, řadič vytvoří v daném prokládání narušení, aby mohlo obnovování pokračovat.

Jakýkoliv stav, který vede k nepřístupnosti dat ve stejném prokládání na více než jednom disku, představuje dvojitou chybu
Dvojité chyby způsobí ztrátu všech dat v příslušném prokládání
Všechna narušení jsou dvojité chyby, ale NE všechny dvojité chyby jsou narušení

Obrázek 3: Narušené prokládání (ztráta dat v prokládání 1 a 2 kvůli stavu dvojité chyby) – optimální pole

Bez funkce narušení by se obnovení pole nezdařilo a zanechalo pole ve stavu sníženého výkonu. V některých případech mohou závady způsobit selhání dalších disků a způsobit, že pole bude v nefunkčním stavu offline. Narušení pole nemá žádný vliv na schopnost spouštění nebo přístupu k jakýmkoliv datům v poli. Jakmile nastane stav dvojité chyby, data jsou již poškozena nebo ztracena.

K narušením může dojít v jedné ze dvou situací:

Dvojitá chyba již existuje (data již jsou ztracena)
- Chyba dat na disku online se šíří (kopíruje) do obnovovaného disku

Dvojitá chyba neexistuje (data jsou ztracena, když dojde k druhé chybě)
- Pokud dojde na disku online ke vzniku vadného bloku ve stavu sníženého výkonu, adresa logického bloku je narušena

Výhodou tohoto stavu narušení pole je to, že systém zůstává dostupný v provozu a redundance pole se obnoví. Data v příslušném prokládání byla ztracena, bez ohledu na to, jestli došlo k narušení či nikoliv. Primární nevýhodou metody LSI je to, že pokud pole obsahuje narušení, bude nadále docházet k neopravitelným chybám vždy při přístupu k zasaženým datům (pokud existují).

Narušení se může vyskytnout na třech místech. Za prvé může k narušení dojít v prázdném prostoru, který neobsahuje žádná data. Dané prokládání bude nepřístupné, ale protože na tomto místě nejsou žádná data, nebude to mít žádný významný dopad. Pokusy operačního systému o zápis do narušeného prokládání se nezdaří a data se zapíšou na jiné místo.

Za druhé se narušení může vyskytnout v prokládání, které obsahuje data, která nejsou kritická, například v souboru README.TXT. Jestliže se k zasaženým datům nepřistupuje, při běžném vstupu a výstupu nedochází k žádným chybám. Pokusům o provedení zálohování souborového systému se nepodaří zálohovat žádné soubory zasažené narušením. Provedení operací Check Consistency nebo Patrol Read vygeneruje kód Sense Code: 3/11/00 pro příslušnou adresu logického bloku (LBA) nebo případně prokládání.

Za třetí může dojít k narušení v datovém prostoru, ke kterému přistupujete. V takovém případě mohou ztracená data způsobit různé druhy chyb. Chyby mohou představovat drobné chyby, které nemají nepříznivý vliv na provozní prostředí. Chyby mohou být také závažnější a mohou systému bránit ve spuštění operačního systému, případně způsobovat chyby aplikací.

Pole, které je narušené, bude nutné nakonec odstranit a znovu vytvořit, aby se narušení eliminovalo. Tento postup způsobí vymazání všech dat. Data bude po eliminaci narušení potřeba znovu vytvořit nebo obnovit ze zálohy. Řešení narušení lze naplánovat na dobu, která je výhodnější z hlediska potřeb firmy.

Jestliže přistupujete k datům v narušeném prokládání, chyby se proti zasaženým vadným adresám logického bloku budou hlásit i nadále, přičemž nebude k dispozici žádná možná náprava. Nakonec (může jít o minuty, dny, týdny, měsíce atd.) se zaplní tabulka Bad Block Management (BBM), což způsobí, že jeden či více disků bude označených jako Predictive failure. Například na obrázku 3 bude jako přívlastkem „Predictive Failure“ typicky označen disk 0, protože se na něj šíří chyby z disku 1 a disku 2. Disk 0 možná ve skutečnosti funguje normálně a výměna disku 0 povede jen k tomu, že i po výměně bude označen jako „Predictive Failure“.

Kontrola konzistence provedená po dosažení narušení problém nevyřeší. Kvůli tomu je velmi důležité pravidelně provádět kontrolu konzistence. Obzvlášť důležité je to před výměnou disků, jestliže je to možné. Aby bylo možné provést kontrolu konzistence, pole musí být v optimálním stavu.

Pole RAID, které obsahuje samostatnou chybu dat ve spojení s další událostí chyby, například selháním pevného disku, způsobí narušení, když se do pole obnoví vadný nebo náhradní disk. Například optimální pole RAID 5 obsahuje tři členy: disk 0, disk 1 a disk 2. Jestliže disk 0 selže (obrázek 2) a bude vyměněn, k obnově scházejících informací zpět na disk 0 se použijí data a parita zbývající na discích 1 a 2. Jestliže však existuje chyba dat na disku 1, když operace obnovy dat dosáhne této chyby, neexistují v prokládání dostatečné informace, aby bylo možné scházející data v tomto prokládání obnovit. Disk 0 neobsahuje žádná data, disk 1 obsahuje vadná data a disk 2 obsahuje dobrá data, protože se právě obnovuje. V tomto prokládání existuje více chyb. Disk 0 a disk 1 neobsahují platná data, takže žádná data v tomto prokládání není možné obnovit a jsou tak ztracena. Výsledkem je, jak je vidět na obrázku 3, že při obnově se vytvoří narušení (v prokládáních 1 a 2). Chyby se rozšíří na disk 0.

Narušení pole obnovuje redundanci a vrací pole do optimálního stavu. To umožňuje ochranu pole před další ztrátou dat v případě dalších chyb nebo selhání disků.

Zpět na začátek

Kapitola 3: Zabránění problémům dříve, než nastanou, a řešení narušení poté, co k nim dojde

Může být lákavé fungovat za předpokladu, že „když to není pokažené, nemusí se to opravovat“. I když to v mnoha oblastech může být pravda, v rámci nejlepší možné ochrany a správy subsystémů úložišť se silně doporučuje provádět pravidelnou údržbu. Aktivní správa může opravit stávající chyby a zabránit vzniku některých chyb. Není možné zabránit vzniku všech chyb, ale ty nejzávaznější mohou být aktivní údržbou výrazně zmírněny. U subsystémů úložiště a pole RAID jde o tyto kroky:

Aktualizujte ovladače a firmware na řadičích, pevných discích, deskách backplane a jiných zařízeních
Provádějte pravidelné operace kontroly konzistence
Prohlížejte si protokoly, jestli neobsahují náznaky problémů

Nemusí jít o technickou kontrolu vysoké úrovně, ale jen o zběžný pohled do protokolů a vyhledání velmi zjevných náznaků potenciálních problémů.
S veškerými otázkami nebo problémy kontaktujte technickou podporu společnosti Dell.

Jednou z nejzásadnějších věcí, které je třeba udělat, je zaručit, že používáte aktuální firmware. Firmware je místo, kde sídlí veškerá logika provozu zařízení. Zajišťuje funkčnost zařízení a jeho funkcí, společně s možnostmi zacházení s chybami a jejich oprav. Vždy aktuální firmware může zajistit lepší výkon a méně chyb. Prostřednictvím aktualizace firmwaru lze také přidat nové funkce a vylepšení.

Firmware se může nacházet na několika místech. Řadiče RAID obsahují firmware, stejně jako jednotlivé pevné disky nainstalované v systému či poli. Také desky backplane a externí skříně obsahují firmware, který může ovlivnit provoz vložených disků a polí.

Další doporučením aktivní údržby je provádět funkci kontrolu konzistence. Kontrola konzistence je ruční operace, protože spotřebovává část celkové dostupné šířky pásma řadiče RAID. Kontrolu konzistence však lze naplánovat na dobu, kdy bude mít nejmenší vliv na výkon.

Kontrola konzistence vyhledá vadné bloky na discích, ale co je důležitější, porovná data v poli, aby se zajistila správná shoda všech částí. Když objeví problém, určí, jak by data měla vypadat a opraví je pomocí kontroly na jiných discích v poli. Oprava chyb dat, když jsou relativně malé, je nejlepší způsob, jak zmírnit riziko narušení způsobených stávajícími chybami dat ve spojení s druhou chybou nebo selháním. Existence dvojitých chyb a narušení může vést ke ztrátě produktivity po dobu nezbytnou k obnovení polí a dat do funkčního stavu nebo dokonce kompletní ztrátě dat.

Pokud se zobrazí dvojitá chyba nebo stav narušení, dochází obvykle ke ztrátě některých dat. Jestliže se tyto chyby nacházejí v prázdném prostoru nebo prostoru s daty, která nejsou důležitá, je okamžitý dopad na data v provozním prostředí relativně malý. Přítomnost těchto chyb ale může znamenat, že dochází i k vážnějším problémům. Chyby hardwaru a neaktuální firmware mohou vyžadovat okamžitou pozornost.

Jestliže existuje známý stav dvojité chyby či narušení nebo podezření na něj, minimalizujte pomocí tohoto postupu riziko závažnějších problémů:

Proveďte kontrolu konzistence (pole musí být v optimálním stavu)
Zjistěte, jestli existují problémy s hardwarem
Zkontrolujte protokol řadiče
Proveďte diagnostiku hardwaru
Podle potřeby se obraťte na technickou podporu společnosti Dell

Pokud jste tyto kroky uskutečnili, existují další možné problémy. Narušení mohou způsobit, že pevné disky postupem času přejdou do stavu předpokladu selhání. Chyby dat, které se rozšíří na disk, budou ohlášeny jako chyby média na disku, i když ve skutečnosti žádný problém s hardwarem neexistuje. Po každém přístupu k dané adrese logického bloku se ohlásí chyba. Jakmile je protokol chyb plný, disk se bude hlásit jako Predictive Failure.

Samostatná narušená adresa logického bloku na disku může být nahlášena vícekrát. V závislosti na množství narušení se může stát, že je jako předpoklad selhání nahlášeno více disků v poli. Výměna disku s předpokladem selhání způsobí rozšíření stávajících narušení na náhradní disk, což nakonec způsobí, že i tento náhradní disk bude označen jako předpoklad selhání. V takovém případě je jediným nápravným úkonem vyřešení stavu narušení.

Když se podíváme na obrázek 3, vidíme, že narušení se nachází na prokládáních 1 a 2. Výměna pevných disků tento problém nevyřeší, protože neexistuje dostatečná redundance dat, aby bylo možné původní data obnovit. Jakákoliv data obsažená v narušených prokládáních jsou ztracena (pokud se nezachovala v předchozí záloze). Nezapomeňte, že narušení nevede ke ztrátě dat, kdežto stav dvojité chyby ztrátu dat způsobuje. Narušení je také prostředek, jak obnovit redundanci v poli, které obsahuje dvojitou chybu.

Poznámka: Zde je uveden postup používaný k řešení většiny narušení. Při řešení nemusí být nutné provést všechny tyto kroky. Pokud ani provedení těchto kroků problém nevyřeší, obraťte se na technickou podporu společnosti Dell pro další asistenci.

Varování: Tento postup povede ke ztrátě veškerých dat v poli. Před jeho provedením se přesvědčte, že vám zůstává možnost obnovy ze zálohy nebo pomocí jiných prostředků. Buďte opatrní, aby provedení těchto kroků neovlivnilo žádná jiná pole.

Zrušte zachovanou cache (pokud existuje)
Vymažte cizí konfigurace (pokud existují)
Odstraňte pole
Polohu disků měňte jeden po druhém (pomocí obrázku 1 přesuňte disk 0 do slotu 1, disk 1 do slotu 2 a disk 2 do slotu 0)
Znovu vytvořte pole podle požadavků
Proveďte úplnou inicializaci pole (ne rychlou inicializaci)
Proveďte na poli kontrolu konzistence

Jestliže se kontrola konzistence dokončí bez chyb, můžete spolehlivě předpokládat, že je pole nyní v dobrém stavu a narušení je odstraněno. Do pole v dobrém stavu je nyní možné obnovit data.

V závažnějších případech nemusí být problém vyřešen a chyby mohou po provedení tohoto postupu přesto přetrvávat. Pokud ani provedení těchto kroků problém nevyřeší, obraťte se na technickou podporu společnosti Dell ohledně další asistence.

Aby se určilo, které disky jsou společné, může být nutné narušení analyzovat podrobněji. Například na obrázku 3 by protokol řadiče ukázal narušení mezi disky 0 a 1 a narušení mezi disky 0 a 2. Disk 0 je společný disk. Postupujte podle výše uvedených kroků, ale nejprve odeberte společné disky. Takto pomocí příkladu v obrázku 1 odeberte disk 0 a poté postupujte podle naznačených kroků. Vytvořte pole pomocí zbývajících disků (1 a 2). Po dokončení a poté, co kontrola konzistence zjistí, že je pole v pořádku, přidejte disk 0 zpět a tyto kroky proveďte znovu se všemi disky nebo pomocí funkcí RLM (RAID Level Migration) či OCE (Online Capacity Expansion) přidejte zbývající disky zpátky do pole.

Disky označené jako Predictive Failure by měly být odstraněny a vynechány z procesu obnovy. Když znovu jako příklad použijeme obrázek 3, pokud byl disk 0 předpoklad selhání, potom tento disk odeberte. Poté proveďte kroky naznačené výše. Protože zbývají pouze 2 disky, vytvořené pole RAID je typu RAID 1, nikoliv RAID 5. Po získání náhradního disku 0 (kvůli předpokladu selhání) proveďte kroky znovu pro všechny 3 disky nebo přidejte disk 0 do stávajícího pole pomocí funkce RLM a změňte ho z typu RAID 1 se 2 disky na typ RAID 5 se 3 disky.

Proces může být riskantní, hlavně pokud vezmeme v úvahu potenciální ztrátu dat. Rozhodně zde platí úsloví „ve zdravém těle zdravý duch“. Zkušenosti ukazují, že skoro všem stavům dvojitých chyb a narušení lze předejít prováděním aktivní údržby na hardwaru a polích RAID.

Poznámka: Účinné sledování systému umožní rozpoznání problémů a jejich včasnou nápravu, což také snižuje riziko vážnějších problémů.

Související článek
PERC – Jak opravit narušení pole RAID

Zpět na začátek

原因

解决方案

文章属性

受影响的产品

Servers

上次发布日期

02 7月 2024

版本

文章类型

Solution

返回页首

欢迎

欢迎访问戴尔