VNX/Unity: Principy neopravných sektorů a chyb parity (uživatel je opravný)

Summary: Tento článek vysvětluje neopravné sektory a chyby parity.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Principy neopravných sektorů a chyb parity na CLARiiON, VNX nebo v poli Unity.

V protokolu událostí se mohou objevit také jako telefonické připojení:

VNX1
kód chyby: 0x953 neopravné kódy chyby sektoru parity
: 0x957 neopravný
kód chyby datového sektoru: 0x68A neopravné kódy chyby sektoru parity
: 0x695 neopravný
kód chyby datového sektoru: 0x840 datového sektoru byl zrušen platný
B26 cache byl vydán CORRUPT_CRC. LUN = 309 ca_sync. c 0 309 2


VNX2
71688003 neopravné skupiny oborů RAID: %2 pozice: %3 LBA: %4 bloky: %5 info o chybě: %6 Další informace: %7
71688008 neopravných skupin oborů RAID: 10 pozic: 1 LBA: D180 bloky: 8 informace o chybě: 0 Extra info: e [r5_rb FLU 8224 r5_rb]
71688008 neopravné skupiny polí RAID: 10 pozic: 1 LBA: d170 bloky: 8 informace o chybě: 0 Extra info: e [r5_rb FLU 8224 r5_rb]
71688001 datového odvětví neplatné skupiny polí RAID: 10 pozic: 1 LBA: D121 bloky: 7 informace o chybě: 0 Extra info: e [r5_rb FLU 8224 r5_rb]

Cause

Pokud dva různé disky ve stejné skupině polí RAID v rámci stejného sektoru obsahují chyby médií, dojde k nesprávným chybám. 
Jeden příklad: když je disk s chybami médií kopírován na hotspare a jiný disk ve stejné skupině polí RAID ve stejném sektoru obsahuje také chyby médií, bude to mít za následek neopravitelné chyby/sektor. 

Tyto kódy událostí jsou protokolovány v případě, že systém nelze přečíst z disku a následné pokusy o rekonstrukce dat z jiného disku ve skupině pole RAID se nezdařilo. Zprávy "neopravitelné" označují, které disky nebylo možné úspěšně přečtením sektorů, a v případě neplatných zpráv značí, které sektory disků byly označeny jako neplatné informace v určitém umístění. Toto označení je prováděno, aby se zajistilo, že do hostitelského systému nebudou vrácena žádná neplatná data. Pokus o čtení z neověřeného umístění způsobí, že se na hostitele vrací chybná chyba.
Pokusy o zápis do neplatného umístění se dokončí úspěšně a obecně "vyplní" (přepište) neplatným místem, takže je účinně opravovat. Jedná se o důvod, proč již dříve neopravitelné chyby zmizely poté, co hostitel tyto sektory přepsal o nová dobrá data.

Resolution

Pro VNX:
Jakmile jsou vyřešeny všechny problémy s hardwarem, technická podpora společnosti Dell EMC bude muset provést ruční ověření na pozadí (ROBV). Pokud jsou v příslušném fondu zasaženy interní logické jednotky (LUN). ROBV čte a kontroluje data pro uncorrectables na celou jednotku LUN (interní), včetně nevyužitého místa, abyste zjistili, kolik sektorů uncorrectables může existovat.
Jakmile ROBV dokončí, bude technik technické podpory společnosti Dell EMC potřebovat provést další kroky, včetně shromažďování a analýzy informací o alokační tabulce úložišť (SAT), aby zjistil konkrétní logické jednotky uživatele, které jsou ovlivněny (interní logické jednotky LUN, kde byl nalezen uncorrectables, namapovány na uživatelské jednotky LUN).
Kompletní vysvětlení a předpoklady potřebné k provedení ROBV naleznete v článku 466638, VNX: Vysvětlení ověření na pozadí jen pro čtení (ROBV) (uživatel je ve správném znění)

Pokud se v logické jednotce LUN nachází neopravný sektor, musí být uživatelská data ověřována hostitelskou aplikací, aby bylo možné určit, zda jsou data uživatele poškozena nebo zda se chyba nachází v nevyužitém prostoru. Jakýkoli proces, který by mohl číst data, jako je například záloha, by vyhovoval identifikaci nebo rozpoznání možného poškození.
Dojde-li k poškození, mohou být data obnovena z dobré zálohy, ať už s úplným obnovením, nebo částečnou obnovu pouze dotčených souborů.
Pokud není k dispozici řádná záloha, je třeba k obnovení nebo opětovnému vytvoření dat použít další prostředky z hostitelské aplikace. 

V případě, že se v datech uživatele neobjeví neopravná chyba, procesy na pozadí mohou v budoucnu odhalit chybu, pokud hostitel I/O nepřepsal sektor. To může vést k nesprávnému posouzení, že jde o novou chybu a způsobit zpoždění při analýze a nápravě staré chyby, které nebyly zcela vyřešeny.
V takovém případě důrazně doporučujeme přesunout dobrá data na jinou jednotku LUN a odstranit původní dotčenou logickou jednotku LUN.

V případě řešení Unitymohou existovat další metody, které by umožnily pomoci tento problém vyřešit. Zkontrolujte, zda jsou v něm více konkrétních článků Unity.

Additional Information

Často kladené otázky:

Technická technologie má jiný způsob, jak obnovit ztracené údaje o zákaznících, pokud hostitelská aplikace zákazníka data nepřepíší a že obnovení ze zálohy nefunguje? 
Neexistuje jiný postup, jak obnovit jiná data než operaci obnovení, nebo vytvořit data z aplikace.
Vzhledem k tomu, že neopravitelné údaje skutečně chybějí, neexistuje žádný způsob, jak získat údaje, které by měly být v zájmu jejich zápisu zpět.  Proto je v sektoru "neověřený" a na hostiteli je vrácena závažná chyba. Je lepší vrátit na tvrdé chyby než nesprávná data. 

Je možné, že se v neověřeném sektoru změní umístění na disku? 
V případě standardní logické jednotky LUN zůstane neplatný sektor dat vždy stejný.
V případě, že je tato výseč přemístěna, se může v případě, že se výřez přemístit, pohybovat na logické jednotce LUN.

Máte k dispozici možnost vyhledat skutečné umístění neověřeného sektoru?  
Je velmi obtížné vyhledat pozici neověřeného sektoru, protože jsou logické jednotky LUN mapovány v rámci skupin nebo fondů RAID a informace dostupné v protokolech událostí.
Další pomoc s identifikací neplatných sektorů vám poskytne podpora společnosti Dell EMC.  Je třeba, aby tým podpory nejprve procházel nesprávným procesem obnovení a poté problém vyřešil do týmu pro obnovení. . 

Pokud se neplatnost v sektoru nejeví jako dopad na oblast dat zákazníka, je zde způsob, jak je zrušit, aniž byste museli svázat logickou jednotku?
Při zápisu dočasných dat pro vyplnění logické jednotky a následném odstranění dočasných dat byla nahlášena nějaká úspěch.  V případě, že je neověřená oblast zapsána dočasnými daty, jsou vyplněna neplatná umístění a obnovení neplatného sektoru s platnými daty. 

Může zákazník spustit jen nástroj CHKDSK nebo FSCK, který zkontroluje integritu dat v systému souborů, pokud jsou neopravitelné chyby vykázáno na pozadí jen pro čtení? 
V případě, že dojde k problémům s nesprávnými sektory, je třeba zkontrolovat, zda existuje poškození souborů. To provedete spuštěním některých typů aplikací nebo programů, které čtou všechny použité sektory v prostoru LUN. Nejběžnějším typem metody je úplná záloha dat. Není vhodné spouštět systém FSCK (UNIX) nebo nástroj CHKDSK (Windows), protože tyto nástroje kontrolují pouze metadata souborů. Pokud neopravitelné sektory nejsou v prostoru pro metadata, zákazník zůstane ve skutečnosti, že data jsou v pořádku.

Další časté dotazy:

Proč je nutné zakázat kompresi dat?
Komprese dat je funkce, která analyzuje data na disku a uplatňuje algoritmy, které snižují velikost opakovaných sekvencí bitů, které jsou součástí některých typů souborů. Během komprese na jednotku LUN skupiny RAID je software migrován a komprimuje data LUN na tenké logické jednotce ve fondu. Logická jednotka se stane komprimovanou tenký diskovou jednotku LUN. Operace komprese pro fond LUN (silná a tenká) jsou prováděny v rámci fondu, ve kterém je umístěna komprimovaná logická jednotka. Pokaždé, když jsou data komprimovaná, dojde k pohybu dat ve fondu, které vám nepomohou nalézt správný MLU, který je ovlivněn z důvodu Uncorrectables nebo neočekávané soudržnosti. Aby bylo možné funkci pozastavit, musí být pozastavena.

Proč je nutné vypnout automatické vrstvení?
Funkce automatického navrstvení migruje data mezi vrstvami úložiště nebo různými úložnými médii (EFD, FC & SATA). Účelem diskové služby je uchovat často používaná nebo důležitá data pro rychlé, vysoce výkonné (dražší) disky a přesunout méně často používaná a méně důležitá data na nízký výkon (méně nákladné) disky. Podobně jako komprese dat dochází k přesunu dat do automatického stupně, které vám nepomáhají při identifikaci sektoru v MLU, která je ovlivněna z důvodu Uncorrectables nebo neočekávané soudržnosti, pokud není deaktivována. Aby bylo nutné přemístění zastavit a naplánování musí být deaktivováno.

Proč je nutné vypnout rychlou mezipaměť?
Rychlá mezipaměť musí být zakázána pouze v případě, že je v rychlé mezipaměti hlášena neopravná chyba sektoru,

Proč je nutné spustit ROBV na celou skupinu RAID (RG) a nikoliv na konkrétní jednotku LUN
. Je třeba spustit ROBV na celém RG a zajistit, aby některé logické jednotky LUN zákazníka v tomtéž RG nebyly ovlivněny.

Proč je nutné spustit ROBV ve fondu a nejen na skupinu polí RAID?
Pokud je plán automatického navrstvení spuštěn od doby, kdy byl hlášen neopravný, musí být spuštěn ROBV v celém fondu a naplánování ROBVo na začátku.  To je nezbytné, protože datové řezy mohou přesunout neopravný modul do jiného sektoru, pokud je výřez dat přesunut do jiné úrovně.
 
Proč je nezbytné shromažďovat informace o alokační tabulce s úložištěm SAT?
Informace o SAT, které procházejí pomocí nástrojů používaných v rámci podpory společnosti Dell EMC, určují, zda se jedná o logickou jednotku LUN/MLU zákazníka, v níž se nachází neopravný sektor.  To také označuje, zda se problém týká datového prostoru nebo v prostoru metadat logické jednotky LUN zákazníka.

Affected Products

VNX1 Series

Products

CLARiiON, CLARiiON CX4 Series, Dell EMC Unity Family |Dell EMC Unity All Flash, Dell EMC Unity Family, Dell EMC Unity Hybrid, VNX1 Series, VNX2 Series
Article Properties
Article Number: 000046044
Article Type: Solution
Last Modified: 06 Nov 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.