NetWorker: Optymalizacja operacji odzyskiwania przestrzeni dla Data Domain
Summary: Ten artykuł zawiera przydatne elementy dostrajania i kroki zmniejszające obciążenie i pomagające zwolnić miejsce na urządzeniach Data Domain w strefie danych NetWorker.
Symptoms
- Zestawy zapisów NetWorker oznaczone jako Wygasłe, ale nie zostały usunięte
- Komunikaty o odzyskiwaniu miejsca pojawiają się w dziennikach częściej niż raz dziennie
- Wpływ szybkości i obciążenia urządzenia Data Domain
- Ogólny wpływ na wydajność serwera
Cause
- Woluminy kwalifikujące się do odzyskiwania miejsca są odczytywane podczas czynności wygaśnięcia (przemieszczania, klonowania lub odzyskiwania)
- Odzyskiwanie miejsca jest uruchamiane domyślnie po każdej operacji przenoszenia na danym woluminie
- Odzyskiwanie miejsca sprawdza każdy plik w strukturze katalogów woluminów podczas uruchamiania odzyskiwania miejsca
- Działanie i responsywność serwera mogą ulec spowolnieniu w fazie odzyskiwania miejsca
Resolution
Faza odzyskiwania miejsca NetWorker jest uruchamiana raz dziennie jako jedna z końcowych faz akcji Wygaśnięcie w przepływie pracy tworzenia kopii zapasowej serwera. Jest on przeznaczony do usuwania obiektów plików zestawu zapisów w woluminie po dokonaniu przez serwer oceny, wygaśnięciu i usunięciu rekordów zestawów zapisów po obliczeniu tych, które można bezpiecznie usunąć zgodnie z ich konfiguracją.
Istnieje kilka czynników, które mogą mieć niekorzystny wpływ na czas reakcji serwera Data Domain lub NetWorker. Włącz dowolną z poniższych opcji, która wydaje się odpowiadać wymaganiom danej strefy danych. Przed rozważeniem testowania z poniższymi plikami klucza debugowania: Wyłącz akcję wygaśnięcia codziennej kopii zapasowej > serwera ochrony > serwera, aby wyłączyć wszystkie obliczenia dotyczące odzyskiwania miejsca i bazy danych nośników na co najmniej jeden dzień w celu potwierdzenia, że napotkane problemy z wydajnością są związane z odzyskiwaniem miejsca i/lub wygasaniem.
Jeśli wyłączenie wygaśnięcia potwierdzi problem związany z codzienną konserwacją, można wyłączyć następujące funkcje w celu rozwiązania problemu, tworząc pusty plik o tej samej nazwie (bez rozszerzenia) na serwerze lub węźle NetWorker w podkatalogu debugowania głównego katalogu nsr. Żaden z tych plików flag nie wymaga ponownego uruchomienia i zostanie zastosowany wraz z uruchomieniem zadań odzyskiwania przestrzeni, gdy są obecne.
Lokalizacja systemu Linux: /nsr/debug
Lokalizacja systemu Windows: C:\Program Files\EMC NetWorker\nsr\debug (lub odpowiednią ścieżkę instalacji NSR)
Nazwy plików i ich funkcje są wyszczególnione poniżej skip_recover_space_for_stage
- Węzły pamięci masowej. Ta flaga powoduje, że NetWorker pomija fazę odzyskiwania przestrzeni operacji przenoszenia (klonowanie, a następnie usunięcie źródła). Jeśli środowisko wielokrotnie korzysta z przemieszczania, w szczególności przemieszczania z tych samych woluminów źródłowych, jest to zalecane, ponieważ neguje możliwość zduplikowania wielu operacji odzyskiwania przestrzeni dla tych samych woluminów. Kiedy ta flaga jest włączona, operacja odzyskiwania miejsca jest całkowicie odroczona, co pozwala systemowi na usunięcie plików po uruchomieniu codziennej akcji wygaśnięcia lub ręcznym uruchomieniu polecenia nsrim.
recover_space_anytime
- Tylko serwer. Umożliwia to wygaśnięcie odzyskania miejsca i usunięcie zestawów zapisów na woluminach, które aktywnie odczytują, co domyślnie jest odroczone. Oznacza to, że w przypadku woluminów, które mają długotrwałe zadania klonowania, wygaśnięcie i odzyskiwanie miejsca mogą być wielokrotnie odraczane podczas uruchamiania akcji wygaśnięcia, nsrim lub zadania przejściowego (zobacz poprzednie). To z kolei może prowadzić do dużych zaległości odzyskiwania miejsca, stopniowego wyczerpywania się wolnego miejsca i większego zadania odzyskiwania miejsca, gdy jest dozwolone.
skip_disk_usage
- Węzły pamięci masowej. W ramach odzyskiwania miejsca i sprawdzania systemu plików woluminów dyskowych domyślnie poszczególne pliki są sprawdzane rekursywnie i zliczane w celu uzyskania dokładnej agregacji danych dla woluminu. Chociaż niektórzy mogą uważać tę precyzję za niezbędną, odroczenie tego kroku opiera się na rekordach bazy danych multimediów NetWorker dla sumy plików i bajtów, co zwykle może być wystarczająco dokładne dla większości zastosowań. W mocno obciążonej Data Domain, zwłaszcza takiej, w której wiele operacji odzyskiwania miejsca jest uruchamianych wielokrotnie dla woluminów, można to uznać za niepotrzebny wydatek i bezpiecznie wyłączyć.
skip_consistency_check_in_recover_space
- Węzły pamięci masowej. Podczas odzyskiwania miejsca dla woluminu system plików woluminu jest sprawdzany plik po pliku, aby zapewnić spójność między bazą danych nośnika; Może to również powodować opóźnienia. Dodanie tego pliku klucza do każdego węzła uniemożliwi temu węzłowi usuwanie plików zestawu zapisów, w których odpowiedni rekord nie istnieje w bazie danych multimediów, lub oznaczanie rekordów bazy danych multimediów, w których nie znaleziono żadnego pliku, jako "podejrzanych". Należy pamiętać, że uniemożliwi to normalne operacje czyszczenia i powinno być używane do kwalifikowania opóźnień związanych z operacjami odzyskiwania przestrzeni i nie powinno być wyłączane przez dłuższy czas.
Domyślnie wprowadzono bardziej szczegółowe rejestrowanie, co powoduje, że wszystkie ścieżki zestawów zapisów są rejestrowane do dzienników data_audit na serwerze NetWorker. Jest to czynnik, który może prowadzić do braku responsywności, w szczególności ze strony węzłów pamięci masowej, które zdalnie zwracają informacje do NetWorker. Aby wyłączyć tę funkcję, podnieś próg rejestrowania dla tych dzienników na serwerze NetWorker:
# nsradmin
# nsradmin> show name; auditlog severity
# print type: nsr auditlog
Ogranicz tę zmianę, aby miała wpływ tylko na inspekcję danych, jeśli chcesz, precyzując zapytanie do określonego wystąpienia, podając jego nazwę. Pomiń ten krok, aby ponownie zastosować ustawienie do każdego z nich:
# print type: nsr auditlog; name: servername_data_audit.raw
Zmień próg na jeden lub oba na "Błąd", aby przestać rejestrować poszczególne usunięcia — usunięcia są nadal rejestrowane w daemon.raw serwera.
# update auditlog severity: Error