Avamar: Kroki sprawdzania poprawności błędów odzyskiwania pamięci w systemie Avamar
Summary: Poniżej przedstawiono kroki umożliwiające weryfikację błędów wyrzucania elementów bezużytecznych (GC) w systemie Avamar.
Symptoms
Co to jest zbieranie śmieci?
Odśmiecanie pamięci (GC) to proces usuwania nieużywanych fragmentów z kopii zapasowych, które wygasły. Spowoduje to zwolnienie pojemności na serwerze Avamar.
Domyślnie wyrzucanie elementów bezużytecznych jest uruchamiane raz dziennie, począwszy od początku okna obsługi.
Typowe objawy awarii:
MSG_ERR_DDR_ERRORMSG_ERR_DISKFULLMSG_ERR_MISCMSG_ERR_TRYAGAINLATERMSG_ERR_BADTIMESYNC
Cause
Najczęstsze przyczyny błędów GC:
MSG_ERR_DDR_ERROR
- Istnieje wiele podstawowych problemów, które mogą spowodować niepowodzenie GC
MSG_ERR_DDR_ERROR. Niektóre z tych powodów obejmują:- Błędy sieci lub połączenia
- Problemy z systemem plików Data Domain
- Urządzenie Data Domain zostaje zapełnione
- Wygasłe lub nieprawidłowe hasło użytkownika DD Boost
- Istnieje zbyt wiele punktów kontrolnych (Avamar) lub migawek (Data Domain). Jest to zwykle połączone z
hfscheckAwarie uniemożliwiające "wycofanie" starych punktów kontrolnych i migawek.
MSG_ERR_MISC lub MSG_ERR_TRYAGAINLATER
- Od wersji Avamar v.7 kopie zapasowe mogą być uruchamiane jednocześnie z odśmiecaniem pamięci.
- Czasami występuje proces zwany "dzieleniem pasków indeksu", gdy nowe dane są dodawane z kopii zapasowych.
- Ponieważ ten proces "dzielenia pasków indeksu" nie może zostać uruchomiony podczas odzyskiwania pamięci, zostanie zgłoszony jeden z powyższych błędów.
- Paski indeksów na siatce mają tendencję do dzielenia się mniej więcej w tym samym okresie, co inne w różnych węzłach.
- Czasami może to potrwać kilka dni.
- Aplikacja Avamar działa zgodnie z założeniami. Obejście problemu polega na nieuruchamianiu kopii zapasowych podczas GC.
MSG_ERR_BADTIMESYNC
- Jest to rzadki problem występujący tylko w siatkach wielowęzłowych. Błąd występuje, gdy czas nie jest zsynchronizowany między co najmniej jednym węzłem danych Avamar a węzłem sieci.
- Prawdopodobnie wszystkie zadania konserwacyjne (GC, punkt kontrolny i
hfscheck)zgłaszają ten sam błąd.
Resolution
Określanie najnowszego stanu odśmiecania pamięci:
Informacje o najnowszym wyrzucaniu elementów bezużytecznych można wyświetlić za pomocą interfejsu wiersza poleceń, AUI lub interfejsu użytkownika serwera konsoli zarządzania (MCS).
Z wiersza poleceń:

- Otwórz sesję SSH (na przykład putty) do Avamar Server i zaloguj się jako "admin". Uruchom następujące polecenia:
status.dpn avmaint gcstatus
- W poniższych przykładach pokazano pomyślne wyrzucanie elementów bezużytecznych:
Last GC: finished Tue Jul 9 00:00:23 2024 after 00m 03s >> recovered 199.88 KB (OK) Last GC: finished Wed Jun 5 09:20:46 2024 after 00m 12s >> recovered 0.00 KB (OK)
- Jeśli stan pokazuje coś innego niż (OK), oznacza to potencjalny problem z wyrzucaniem elementów bezużytecznych:
Last GC: finished Mon Jun 17 09:02:41 2024 after 01m 51s >> recovered 14.98 MB (MSG_ERR_DDR_ERROR) Last GC: finished Thu Jun 13 07:06:54 2024 after 03m 41s >> recovered 0.00 KB (MSG_ERR_DISKFULL) Last GC: finished Mon Jun 10 19:04:58 2024 after 01m 01s >> recovered 0 KB (MSG_ERR_MISC) Last GC: finished Thu Jun 16:21:12 2024 after 00m 25s >> recovered 0 KB (MSG_ERR_BADTIMESYNC)
Z AUI:
- Przejrzyj "Stan ostatniego wyrzucania elementów bezużytecznych". Jeśli stan pokazuje coś innego niż (OK), oznacza to potencjalny problem z wyrzucaniem elementów bezużytecznych.
W interfejsie MCS:
- Jeśli w polu "Last Garbage collection" jest widoczny czerwony symbol "x" , jak pokazano powyżej, oznacza to potencjalny problem z wyrzucaniem elementów bezużytecznych i wymagana jest dalsza analiza.
Jeśli odzyskiwanie pamięci nadal kończy się niepowodzeniem z powodu rzeczywistego problemu (co zostało zweryfikowane w powyższych krokach), wybierz odpowiednie opcje w formularzu odpowiedzi na alert, aby przenieść żądanie obsługi do agenta pomocy technicznej.
Additional Information
Potwierdzanie błędów po rozwiązaniu problemu:
Z wiersza poleceń:
- Znajdź zdarzenia Unconfirmed, uruchamiając:
mccli event show --unack
- Potwierdź pojedynczy kod, wprowadzając unikatowy identyfikator, lub wszystkie kody błędów:
mccli event show --id-

Z AUI:
- Zaloguj się do AUI i wyświetl pulpit nawigacyjny:
- Kliknij wykrzyknik, a na ekranie pojawi się komunikat podobny do poniższego:
- Kliknij opcję Zdarzenia niepotwierdzone, a na ekranie pojawi się komunikat podobny do poniższego:
- Wybierz zdarzenie (jak pokazano powyżej) i kliknij przycisk Potwierdź.
Określenie, jak długo GC nie działa:
Najprostszym sposobem określenia, jak długo GC kończy się niepowodzeniem, jest użycie interfejsu wiersza polecenia (chociaż te informacje są również dostępne zarówno w interfejsie użytkownika AUI, jak i MCS)
Następujące polecenie pokazuje wszystkie błędy wyrzucania elementów bezużytecznych z ostatnich 30 dni:
dumpmaintlogs --types=gc --days=30 |grep "failed garbage collection"
2024/05/27-16:32:18.55893 {0.0} <4202> failed garbage collection with error MSG_ERR_DDR_ERROR
2024/05/28-16:32:37.92920 {0.0} <4202> failed garbage collection with error MSG_ERR_DDR_ERROR
2024/05/29-16:31:51.62962 {0.0} <4202> failed garbage collection with error MSG_ERR_DDR_ERROR
2024/05/30-16:31:55.18969 {0.0} <4202> failed garbage collection with error MSG_ERR_DDR_ERROR
2024/06/20-01:19:09.97961 {0.0} <4202> failed garbage collection with error MSG_ERR_DDR_ERROR
