Avamar: Awarie zawieszonych partycji, przeplotów i hfscheck w systemie Avamar

Podsumowanie: Ten artykuł zawiera informacje na temat zawieszonych partycji, przeplotów i błędów Hfscheck w systemie Avamar (kod objawu 22632)

Ten artykuł dotyczy Ten artykuł nie dotyczy Ten artykuł nie jest powiązany z żadnym konkretnym produktem. Nie wszystkie wersje produktu zostały zidentyfikowane w tym artykule.

Objawy

1. W interfejsie użytkownika serwera administratora Avamar może pojawić się następujący błąd: Ten komunikat może generować zgłoszenie serwisowe typu Dial Home (SR):

Symptom Code: 22632, Desc: A server disk has become suspended.
 

2. Komunikaty WARN związane z perfbeat są zgłaszane w węzłach przechowywania danych w /data01/cur/gsan.log:

WARN: <0968> perfbeat::outoftolerance mbpersec=0.31 average=5.66
WARN: <1051> tperfstatechanger::execute server_exception(MSG_ERR_UNNECESSARY) diskid=0 newstate=suspended
WARN: <1084> changing disk 0 on node 0.3 to suspended state
 

3. Polecenie status.dpn dane wyjściowe pokazują, że dysk ma zawieszone przeploty:
(Te dane wyjściowe są tworzone tylko wtedy, gdy wystąpi "WARN <1084>").

Oto przykład:

0.8 10.10.10.10 7.3.1-125 ONLINE fullaccess mhpu+0hpu+0hpu 1 false 7.36 16350564 3401334 56.0% 66%(onl:1,SUS:2374) 50%(onl:2439) 50%(onl:2433) 

Dane wyjściowe pokazują, że istnieje 2374 zawieszonych pasków.

4. Polecenie hfscheck kończy się niepowodzeniem, jeśli partycja zostanie zawieszona, podczas gdy hfscheck jest uruchomiony. Przykład błędu z /data01/hfscheck/err.log lub /data01/cur/err.log są: 

ERROR: <0001> indexstripe::hfschecksweepbody stripe=0.0-1209 proxy=0.0-1209 indexelem([hash=ee9b2fe66b4bd472e28c4f41c5097dbeaba7131a stripe=0.1-DF8 offset=1285]) goodowner=true goodelem=false

 

Przyczyna

Okresowo, domyślnie co pięć minut, gsan "testuje" I/O podsystemu, wykonując małe odczyty z partycji danych.

Sprawdza ona, czy wydajność odczytu wynosi 10% wydajności normalnej.

 

W poniższym przykładzie komunikat wskazuje, że w określonym węźle, który wygenerował komunikat ostrzegawczy, średnia wydajność odczytu w większej liczbie prób, podczas gdy hfscheck wynosi około 54,03 MB/s. Jednak w tym konkretnym teście rzeczywista wydajność wyniosła 0,57 MB/s, czyli poniżej "limitu" 10% średniej wartości, czyli 5,4029 MB/s.

Event Summary = perfbeat::outoftolerance mask=[hfscheck] average=54.03 limit=5.4029 mbpersec=0.57
 

Pierwotnym celem tego testu było ostrzeżenie, że wystąpił jakiś problem z I/O podsystem, który powoduje zbyt niskie tempo odczytu. 

W tym przypadku wolniej niż 10% "przeciętnego" dysku I/O wydajność.

Polecenie perftriallimit Określa liczbę kolejnych testów odczytu dysku, które muszą wykraczać poza tolerancję perfbeat Istnieje podejrzenie, że dysk może ulec degradacji.

Polecenie perfinterval (domyślnie 300 s lub 5 minut) określa, jak długo należy czekać między kolejnymi perftriallimit test.

 

When (Kiedy) perfbeat podejrzewa, że dysk uległ degradacji, informuje o tym gsan aby osiągnąć zimny stan (zatrzymaj całą aktywność związaną z dyskiem). 

Czeka co najwyżej 20 minut (podłączony na stałe) na gsan Aby osiągnąć ten stan przed przekroczeniem limitu czasu i nie zawieszać dysku.

Jeśli zostanie osiągnięty stan zimny, perfbeat Wykonuje perfcoldtriallimit (wartość domyślna 4) więcej testów odczytu w odstępach perfcoldinterval (domyślnie: 30) sekund odstępu.

Tylko wtedy, gdy wszystkie te testy wykażą, że dysk nadal uległ degradacji, zostanie on zawieszony.

 

Możliwe przyczyny zawieszenia dysków:

  • Podczas próby osiągnięcia stanu zimnego gsan zawsze czeka co najmniej minutę (podłączony na stałe). Czeka również na wszystkie oczekujące dyski gsan I/O w celu zakończenia lub zawieszenia ich działalności. Jednak po osiągnięciu zimnego stanu system operacyjny może nadal wykonywać dysk I/O, na przykład wypłukiwanie pamięci podręcznej. To opróżnianie jest jednym z możliwych wyjaśnień niepotrzebnego zawieszania dysków. W przypadku większej ilości pamięci może być znacznie więcej danych z pamięci podręcznej do opróżnienia.

  • Innym możliwym wyjaśnieniem jest to, że informacje o historii wydajności nie przewidują dokładnie, jaka powinna być oczekiwana wydajność odczytu dysku podczas różnych gsan z uwagi na fakt, że gsan's Zachowanie zmieniło się zbyt szybko, aby można było to odzwierciedlić w historii (historia to średnia z pomiarów wydajności z ostatnich 10 dni).

  • Innym możliwym wyjaśnieniem jest to, że może wystąpić problem, taki jak nie czekanie na wszystkie gsan dysk I/O działania mające na celu zakończenie lub zawieszenie ich działania przed osiągnięciem stanu zimnego.

Ponadto badania wykazały, że w okresie hfscheckindexsweep" (gdy wszystkie skróty w paskach indeksu są odczytywane, a następnie wykonywane są masowe losowe zapisy w wielu plikach dziennika odniesienia do danych (DRL)) testowany I/O Wydajność spada przez dłuższy czas.

W Avamar Data Store Gen4s, Gen4s i Gen4T operacje zapisu zostały potraktowane priorytetowo w stosunku do operacji odczytu, a znaczenie testowania wydajności odczytu I/O podsystemu jest znacznie niższy. Ponadto niektóre dyski (np. Seagate Megalodon dyski) stosują różne techniki, które mogą mylić testy wykonywane przez perfbeat nitka.

Rozwiązanie

Opis:

Zazwyczaj w gsan Dzienniki:

WARN: <0968> perfbeat::outoftolerance mbpersec=0.31 average=5.66

Ostrzeżenie <0968> wskazuje, że była to osoba gsan I/O test, który był powolny.

Ten komunikat można bezpiecznie zignorować.

 
WARN: <1051> tperfstatechanger::execute server_exception(MSG_ERR_UNNECESSARY) diskid=0 newstate=suspended

Ostrzeżenie <1051> wskazuje, że było wystarczająco dużo powolnych odczytów, aby gsan Rozważano wprowadzenie partycji danych w stan wstrzymania, ale zdecydowano się tego nie robić. Na to MSG_ERR_UNNECESSARY wskazuje.

Ten komunikat można bezpiecznie zignorować.

 
WARN: <1084> changing disk 0 on node 0.3 to suspended state

Ostrzeżenie <1084> wskazuje, że gsan umieścił partycję danych w "stanie zawieszenia".

Tego komunikatu nie można zignorować.

 
 

Rozwiązanie:

Jeśli paski są w stanie wstrzymania, skorzystaj z poniższych wskazówek, aby zbadać i skorygować następujące scenariusze:

Wykonaj następujące czynności, aby zidentyfikować położenie zawieszonej partycji:

1. Zaloguj się do węzła Avamar Utility Node jako „admin”.

2. Podnieś poziom uprawnień do uprawnień root.

3. Załaduj klucze główne na Avamar: Logowanie się na serwerze Avamar i ładowanie różnych kluczy.

4. Uruchom następujące polecenie, aby określić lokalizację zawieszonej partycji:

mapall --noerror 'grep -i "suspended" /data01/cur/err.log'
 

5. Przejrzyj scenariusze w odniesieniu do powyższych wyników:

Scenariusz # 1: Losowe porcje w różnych węzłach pamięci masowej wprowadzone w stan wstrzymania:
    • Nie jest wymagane dalsze działanie. Paski automatycznie powracają do trybu online. Jest wysoce prawdopodobne, że hfscheck były uruchomione. 
 
Scenariusz # 2: Ta sama partycja w tym samym węźle pamięci masowej przełączona w stan wstrzymania:
    • Jeśli paski automatycznie powracają do trybu online, istnieje duże prawdopodobieństwo, że wyrzucanie elementów bezużytecznych lub hfscheck były uruchomione.
    • WAŻNE: Może to wskazywać na problem z dyskiem lub inny podstawowy problem.
    • Mimo że dysk jeszcze nie uległ awarii, należy ją sprawdzić, wykonując poniższe czynności:

1. Określ, które dyski fizyczne są powiązane z dyskiem, który został zawieszony przez Avamar. Problemy z zawieszaniem dysku fizycznego w dysku wirtualnym są główną przyczyną zawieszenia:

avsysreport pdisk vdisk=x 

Gdzie x oznacza numer dysku wirtualnego (partycji danych), który został zawieszony. Jeśli na przykład pierwsza partycja danych zawiera zawieszone paski, zapytanie vdis=0.

Uwaga: Zobacz Avamar: Lokalizacja dysku fizycznego i grupa RAID, do której należy w węźle Avamar, aby uzyskać więcej informacji na temat przypisania dysków wirtualnych i fizycznych.
 

2. Sprawdź, czy nie ma awarii dysków, przewidywanych i innych błędów na poziomie dysku fizycznego.

3. Upewnij się, że nie ma błędów SCSI na dyskach fizycznych, które reprezentują dysk wirtualny w danym węźle (określone w kroku 1). 

grep -i "MRMON\|scsi|Adaptec" /var/log/messages
 

4. Dyski wirtualne w trybie zapisu przez mogą powodować wstrzymanie dysku z powodu niskiego I/O. Sprawdź zasady zapisu na kontrolerze:

mapall --noerror --all+ 'avsysreport vdisk | grep "Write Policy"'  
 

Jeśli w krokach 2–4 zostaną wykryte jakiekolwiek problemy, otwórz zgłoszenie serwisowe Dell Technologies Avamar w celu dokładniejszego zbadania.

 

Scenariusz # 3: Przejrzyj wartość domyślną perftriallimit Ustawienia:

1. Sprawdź, czy perftriallimit jest ustawiona na 0:

avmaint config --ava | grep perftriallimit 
perftriallimit="0"
 

2. Jeśli trzeba odzyskać perftriallimit jest czymś innym niż zero:

a. Zaktualizuj go, uruchamiając polecenie:

avmaint config --ava perftriallimit=0

b. Potwierdź zmianę:

avmaint config --ava | grep perftriallimit 
perftriallimit="0"
 

 

 

Produkty, których dotyczy problem

Avamar

Produkty

Avamar, Avamar Server
Właściwości artykułu
Numer artykułu: 000061342
Typ artykułu: Solution
Ostatnia modyfikacja: 17 cze 2025
Wersja:  10
Znajdź odpowiedzi na swoje pytania u innych użytkowników produktów Dell
Usługi pomocy technicznej
Sprawdź, czy Twoje urządzenie jest objęte usługą pomocy technicznej.