Tento článek popisuje odstraňování problémů s (narušením) chybnými bloky pevných disků u serverů PowerEdge s řadiči PERC. Následující informace mohou pomoci navrátit dotčený virtuální disk do optimálního stavu, zejména pokud není k dispozici záloha.
Nástroj OpenManage Server Administrator (OMSA) zobrazuje červený křížek před virtuálním diskem (obrázek 1).
Obrázek 1: Virtuální disk označený červeným křížkem (příklad: model H800)
Systémový protokol Windows zobrazuje vady chybných bloků (obrázek 2).
Obrázek 2: Vada chybného bloku zobrazená v systémovém protokolu Windows
Protokol řadiče RAID (TTYLOG) zobrazuje chyby jako:
02/26/15 13:43:39: EVT#131878-02/26/15 13:43:39: 97=Puncturing bad block on PD XX(e0x20/s2) at 180ca4a1f
Další informace o získávání těchto specifických protokolů najdete v našem článku o shromažďování protokolů.
Pole RAID nejsou vůči chybám dat imunní. Řadič RAID a firmware pevného disku obsahují funkce, které umožňují rozpoznat a napravit mnoho typů chyb dat předtím, než dojde k jejich zápisu do pole či na disk. K zápisu nesprávných dat do pole či na disk může vést používání zastaralého firmwaru, protože neobsahuje funkce zpracování či nápravy chyb, které jsou dostupné v nejnovějších verzích firmwaru.
Chyby dat mohou být také způsobeny vadnými fyzickými bloky. K tomu může dojít například tehdy, když čtecí/zapisovací hlava spadne na točící se plotnu (tzv. „Head Crash“). Bloky také mohou začít být vadné v průběhu doby v důsledku postupného zhoršování schopnosti plotny magneticky uchovávat bity na konkrétním místě. Vadné bloky způsobené postupným zhoršováním plotny je často možné úspěšně přečíst. Takový vadný blok je možné rozpoznat pouze občas nebo pomocí rozsáhlé diagnostiky disků.
Vadný blok, známý také jako vadná adresa logického bloku (LBA), může být způsoben také logickými chybami dat. K nim dochází, když se data na disk zapíšou nesprávně, i když se nahlásí úspěšný zápis. Kromě toho se dobrá data uložená na disku mohou neúmyslně změnit. Jedním takovým příkladem je překlopení bitu („bit flip“), ke kterému může dojít, když čtecí/zapisovací hlava přejede přes blízké místo nebo na něj zapíše a způsobí změnu dat v podobě nul a jedniček na jinou hodnotu. Takový stav způsobí narušení „konzistence“ dat. Hodnota dat na konkrétním bloku je jiná než původní data a už neodpovídá kontrolnímu součtu dat. Fyzická adresa logického bloku je v pořádku a je možné do ní úspěšně zapisovat, v danou chvíli ale obsahuje nesprávná data a může být interpretována jako vadný blok.
Další informace najdete v našem článku Dvojité chyby a narušeních v polích RAID.
Vytvořte ověřenou zálohu dat na úrovni souboru.
Všechny chybové disky vykazující prediktivní poruchy je třeba vyměnit.
Odstraňte a znovu vytvořte virtuální disk.
Proveďte plnou inicializaci virtuálního disku.
Proveďte na nově vytvořeném virtuálním disku kontrolu konzistence.
Na virtuální disk v dobrém stavu je nyní možné obnovit data.
Doporučení: Upgradujte firmware všech pevných disků na nejnovější verzi.
Nástroj OMSA nabízí možnost vymazat varování ohledně chybných bloků. Pokud chcete vymazat chybné bloky, doporučuje se postupovat takto:
Při zálohování virtuálního disku s vybranou možností Verify může dojít ke dvěma situacím:
Spusťte proces Patrol Read (v části Virtual Disk Tasks nástroje OMSA) a zkontrolujte protokol systémových událostí, abyste měli jistotu, že nebyly nalezeny žádné nové chybné bloky. Pokud jsou chybné bloky stále přítomné, pokračujte dalším krokem. Pokud ne, problém je vyřešen.
Když chcete vymazat chybné bloky, spusťte úlohu Clear Virtual Disk Bad Blocks. To je možné v grafickém rozhraní nástroje OMSA nebo pomocí příkazu CLI:
omconfig storage vdisk action=clearvdbadblocks controller=id vdisk=id
omreport storage controller
, který zobrazí ID řadičů, a poté příkaz omreport storage vdisk controller=ID
, který zobrazí ID virtuálních disků.