VNX/jedności: Opis niemożliwych do usunięcia sektorów i błędów parzystości (użytkownik poprawnie)

Summary: Ten artykuł zawiera informacje o nieprawidłowych sektorach i błędach parzystości.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Opis niemożliwych do usunięcia sektorów i błędów parzystości w macierzu CLARiiON, VNX lub Unity.

Komunikaty o dziennikach zdarzeń, takie jak następujące, mogą być wyświetlane jako domy (domy):

VNX1
Kod błędu: 0x953 nieskorygowany sektor parzystości
Kod błędu: 0x957 niewłaściwy sektor danych
Kod błędu: 0x68A nieskorygowany sektor parzystości
Kod błędu: 0x695 niewłaściwy sektor danych
Kod błędu: 0x840 sektor danych został unieważniony w
pamięci podręcznej B26 wystawiony CORRUPT_CRC. LUN = 309 ca_sync. c 0 309 2


VNX2
71688003 niepoprawiona Grupa RAID w sektorze RAID: %2 położenie: %3 LBA: %4 bloki: %5 informacje o błędzie: %6 dodatkowych informacji: %7
71688008 nie Naprawiono grupy RAID w sektor: 10 położenie: 1 LBA: D180 Blocks: 8 informacje o błędzie: 0 dodatkowe informacje: e [r5_rb FLU 8224 r5_rb]
71688008 w sektorze RAID niekorygującej: 10 położenie: 1 LBA: d170 Blocks: 8 informacje o błędzie: 0 dodatkowe informacje: e [r5_rb FLU 8224 r5_rb]
71688001 sektor danych z unieważnioną grupą RAID: 10 położenie: 1 LBA: D121 Blocks: 7 informacje o błędzie: 0 dodatkowych informacji: e [r5_rb FLU 8224 r5_rb]

Cause

Niemożliwe do usunięcia błędy występują, jeśli dwa różne dyski w tej samej grupie RAID w tym samym sektorze zawierają błędy nośników. 
Na przykład, kiedy dysk z błędami nośnika jest kopiowany do hotspare, a inny dysk w tej samej grupie RAID, w tym samym sektorze, również zawiera błędy nośników, spowodowałoby to niewłaściwy błąd/sektor. 

Opisane powyżej kody zdarzeń są rejestrowane, gdy system nie może odczytać sektorów danych z dysku, a kolejne próby zrekonstruowania danych z innych dysków w grupie RAID nie powiodły się. Wiadomości "niemożliwe do usunięcia" wskazują, z których dysków nie udało się odczytać sektorów, a komunikaty "unieważnione" wskazują, które sektory zostały oznaczone jako puste w określonej lokalizacji. Oznacza to tak, aby upewnić się, że do systemu hosta nie zostaną zwrócone żadne nieprawidłowe dane. Próby odczytu z nieprawidłowej lokalizacji powodują zwrócenie do hosta błędnego błędu.
Próby zapisu w unieważnionej lokalizacji zakończą się pomyślnie i ogólnie "Wypełnij" (nadpiszesz), co oznacza, że w ten sposób można skutecznie naprawianie niemożliwości usunięcia. Jest to powód, w którym czasami Niepoprawione błędy znikną po zapisaniu tych sektorów przez hosta przy użyciu nowych dobrych danych.

Resolution

W przypadku VNX:
Po rozwiązaniu wszystkich problemów ze sprzętem, Dell EMC pomocy technicznej będzie musiał wykonać ręczną weryfikację (ROBV), jeśli w puli objętej problemem znajdują się elementy LUN wewnętrzne. ROBV odczytuje i sprawdza dane w przypadku uncorrectables na całym LUN (wewnętrznym), w tym nieużywanym miejscu, aby określić, ile sektorów uncorrectables mogą nadal istnieć.
Po zakończeniu ROBV, jeśli uncorrectables nadal występują Dell EMC, pracownik pomocy technicznej będzie musiał wykonać dodatkowe czynności, w tym gromadzenie i analizowanie informacji o tabeli alokacji pamięci masowej (SAT) w celu zidentyfikowania określonych LUN, których to dotyczy, (wewnętrzne jednostki LUN, w których uncorrectables zostały znalezione, zostaną zmapowane na jednostki LUN użytkownika).
Aby zapoznać się z pełnym objaśnieniem i wstępnym wymaganiem do wykonania ROBV, należy zapoznać się z artykułem 466638, VNX: Objaśnienie weryfikacji tła tylko do odczytu (ROBV) (tylko użytkownik z możliwością korekty)

W przypadku znalezienia niemożliwego w LUN użytkownika sektora, dane użytkownika muszą być sprawdzone przez aplikację hosta w celu określenia, czy dane użytkownika są uszkodzone, czy też błąd znajduje się w nieużywanym miejscu. Wszystkie procesy, które mogłyby odczytywać dane, takie jak kopia zapasowa, pomogłyby zidentyfikować/oflagować możliwe uszkodzenie.
W przypadku uszkodzenia dane można przywrócić z dobrej kopii zapasowej, z pełnym przywróceniem lub częściowym przywróceniem tylko tych plików, których to dotyczy.
Jeśli nie jest to dobre tworzenie kopii zapasowych, należy użyć innych środków z aplikacji hosta do przywrócenia lub ponownego utworzenia danych. 

Jeśli w danych użytkownika nie znaleziono niemożliwego do usunięcia błędu, procesy w tle nadal mogą wykryć błąd w przyszłości, Jeśli host we/wy nie zastąpi sektor. Może to doprowadzić do nieprawidłowej oceny, że jest to nowy błąd i powodować opóźnienia w analizie i korygowaniu starego błędu, który nie został całkowicie rozwiązany.
W takim przypadku stanowczo zaleca się przeniesienie dobrych danych do innego LUN i usunięcie oryginalnych LUN, których to dotyczy.

W przypadku jedności jednościmogą występować inne metody, które próbują rozwiązać ten problem. Sprawdź, czy nie ma więcej szczegółowych informacji na temat środowiska Unity.

Additional Information

Często zadawane pytania:

Czy Inżynieria ma inny sposób na przywrócenie utraconej danych klienta, jeśli aplikacja hosta klienta nie zastąpi danych, a przywracanie z kopii zapasowej nie działa? 
Nie można odtworzyć danych innych niż operacja przywracania ani odtworzyć danych z aplikacji.
Ze względu na Brak danych niemożliwych do usunięcia, nie ma wpływu na to, jakie dane powinny być zapisane w celu ich zapisania.  Jest tak dlatego, że sektor został unieważniony, a do hosta zostanie zwrócony twardy błąd. Lepiej jest zwrócić twardy błąd niż błędne dane. 

Czy istnieje możliwość zmiany lokalizacji na dysku przez sektor nieunieważniony? 
W przypadku standardowej LUN nieprawidłowy sektor danych zawsze pozostaje taki sam.
W przypadku puli LUN z włączonym automatyczną warstwą, może to spowodować przesunięcie plasterka.

Czy istnieje sposób znalezienia rzeczywistej lokalizacji nieprawidłowego sektora?  
Bardzo trudne jest zlokalizowanie nieprawidłowego sektora ze względu na sposób mapowania jednostek LUN na grupy lub pule RAID oraz informacje, które są dostępne w dziennikach zdarzeń.
Skontaktuj się z działem pomocy technicznej Dell EMC w celu zidentyfikowania bloków zawierających unieważniony sektor.  Przed rozpoczęciem procesu odzyskiwania należy najpierw przejść przez zespół pomocy technicznej, a następnie eskalować problem do zespołu odzyskiwania. . 

W przypadku gdy unieważniony sektor nie ma wpływu na obszar danych klienta, istnieje sposób jego pozbywania się bez odtworzenia powiązania LUN?
Po zapisaniu danych tymczasowych w celu wypełniania LUN wystąpił jakiś sukces, a następnie usunięto tymczasowe dane.  Jeśli w obszarze, w którym znajdują się dane tymczasowe, został zapisany nieprawidłowy obszar, zostaną wypełnione unieważnione lokalizacje, co przywraca nieprawidłowy sektor z prawidłowymi danymi. 

Czy klient może uruchomić program CHKDSK lub FSCK w celu sprawdzenia integralności danych w systemie plików, jeśli zostaną zgłoszone Niepoprawione błędy za pomocą weryfikacji tła tylko do odczytu? 
W przypadku problemu z niemożliwością usunięcia sektorów dane klienta powinny sprawdzić, czy istnieją uszkodzone pliki. Aby wykonać tę czynność, należy uruchomić niektóre aplikacje lub programy, które odczytuje wszystkie używane sektory w LUN przestrzeni. Najpopularniejszym typem metody jest pełna kopia zapasowa danych. Nie zaleca się uruchamiania programu FSCK (UNIX) ani CHKDSK (Windows), ponieważ programy te sprawdzają tylko powierzchnię metadanych plików. Jeśli niedopuszczalne sektory nie znajdują się w przestrzeni metadanych, Klient poinformuje o tym, że dane są prawidłowe w przypadku, gdy jest to możliwe.

Inne często zadawane pytania:

Dlaczego konieczne jest wyłączenie kompresji danych?
Kompresja danych jest funkcją, która umożliwia analizowanie danych na dysku i zastosowanie algorytmów zmniejszających rozmiar powtarzających się sekwencji bitów, które są związane z niektórymi typami plików. Podczas operacji kompresowania dla grupy RAID LUN oprogramowanie dokonuje migracji i kompresji LUN danych do cienkiej LUN w puli. LUN staje się skompresowanym LUNem. Operacje związane z kompresją dla puli jednostek LUN (grubej i cienkiej) są wykonywane w ramach puli, w której znajdują się LUN kompresowane. Kiedy dane są kompresowane, istnieje przepływ danych w puli, który nie pomoże nam w zidentyfikowaniu poprawnej MLUu, którego dotyczy problem z powodu Uncorrectables lub nieoczekiwanego Coherency. Aby działanie funkcji było wstrzymane.

Dlaczego konieczne jest wyłączenie automatycznej warstwy?
Funkcja automatycznej warstwy umożliwia Migrowanie danych między poziomami pamięci masowej lub innymi nośnikami pamięci masowej (EFD, FC & SATA). Celem pamięci masowej jest zachowanie najczęściej używanych i ważnych danych na temat szybkich, wysokiej wydajności (droższych) dysków, a także przenoszenie rzadziej używanych i mniej ważnych danych do niskiego poziomu wydajności (mniej kosztownej) dysków. Podobnie jak kompresja danych, istnieje przesunięcie danych w ramach automatycznego skalowania, które nie pomaga nam w identyfikacji sektora, na który ma wpływ MLU na skutek Uncorrectables lub nieoczekiwanego Coherency, jeśli nie zostało wyłączone. Dlatego należy zatrzymać relokalizację i harmonogram musi być wyłączony.

Dlaczego należy wyłączyć szybką pamięć podręczną?
Szybkiej pamięci podręcznej należy wyłączyć tylko w przypadku, gdy w szybkiej pamięci podręcznej jest zgłaszane błąd sektora niemożliwego do

wykonania, dlaczego jest to konieczne, aby uruchomić ROBV na całej grupie RAID (RG), a nie na konkretnej LUN?
Należy uruchomić ROBV na całym RG, aby upewnić się, że niektóre inne jednostki LUN klienta w tym samym RG nie były zagrożone.

Dlaczego jest konieczne uruchomienie ROBV w puli, a nie tylko grupie RAID?
Należy uruchomić ROBV w całej puli, jeśli harmonogram Auto-warstwowy został uruchomiony od momentu, gdy został zgłoszony niepoprawiony, a ROBV jest zaplanowane do rozpoczęcia.  Jest to konieczne, ponieważ plasterki danych mogą przenosić się w inny sposób, jeśli taki plasterek danych jest przenoszony do innej warstwy.
 
Dlaczego konieczne jest gromadzenie informacji o tabeli alokacji SAT pamięci masowej?
Informacje SAT dotyczące narzędzi używanych przez Dell EMC Support określą, że klient LUN/MLU, że nie należy do tego sektora.  Wskazuje to również, czy problem znajduje się w przestrzeni danych, czy w przestrzeni metadanych LUN klienta.

Affected Products

VNX1 Series

Products

CLARiiON, CLARiiON CX4 Series, Dell EMC Unity Family |Dell EMC Unity All Flash, Dell EMC Unity Family, Dell EMC Unity Hybrid, VNX1 Series, VNX2 Series
Article Properties
Article Number: 000046044
Article Type: Solution
Last Modified: 06 Nov 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.