NetWorker: Ottimizzazione delle operazioni di ripristino dello spazio per Data Domain
Summary: Questo articolo fornisce alcune regolazioni e procedure utili per ridurre il carico e liberare spazio sui dispositivi Data Domain in una datazone di NetWorker.
Symptoms
- I saveset NetWorker contrassegnati come Expired ma non rimossi
- I messaggi di ripristino dello spazio vengono visualizzati nei registri più di una volta al giorno
- Impatto su velocità e carico di Data Domain
- Impatto generale sulle prestazioni del server
Cause
- I volumi idonei per il ripristino dello spazio vengono letti durante l'azione di scadenza (staging, clonazione o ripristino)
- Il ripristino dello spazio viene eseguito per impostazione predefinita dopo ogni operazione di staging su un determinato volume
- Il ripristino dello spazio controlla ogni file in una struttura di directory del volume durante l'esecuzione del ripristino dello spazio
- Le operazioni e la reattività del server potrebbero rallentare durante la fase di ripristino dello spazio
Resolution
La fase di ripristino dello spazio di NetWorker viene eseguita una volta al giorno come una delle fasi finali dell'azione Expiration nel flusso di lavoro di backup del server. Ha lo scopo di eliminare gli oggetti file del saveset all'interno di un volume in seguito alla valutazione, alla scadenza e all'eliminazione da parte del server dei record del saveset dopo aver calcolato quelli che possono essere rimossi in modo sicuro in base alla loro configurazione.
Esistono diversi fattori che possono avere impatti negativi sulla reattività del server Data Domain o NetWorker. Abilitare una delle seguenti opzioni che sembrano soddisfare i requisiti della datazone in questione. Prima di prendere in considerazione l'esecuzione di test con i file chiave di debug riportati di seguito: Disabilitare l'azione giornaliera Server Protection > Server backup > Expiration per disabilitare tutti i calcoli del database dei supporti e dello spazio di ripristino per uno o più giorni allo scopo di confermare che i problemi di prestazioni riscontrati sono correlati al ripristino dello spazio e/o alle attività di scadenza.
Se la disabilitazione di Expiration conferma il problema relativo alla manutenzione giornaliera, è possibile disabilitare le seguenti funzioni per la risoluzione dei problemi creando un file vuoto con lo stesso nome (senza estensione) nel nodo o nel server NetWorker nella sottodirectory di debug della directory nsr principale. Nessuno di questi file di flag richiede un riavvio e avrà effetto con i job di ripristino dello spazio avviati mentre sono presenti.
Posizione Linux: /nsr/debug
Posizione Windows: C:\Program Files\EMC NetWorker\nsr\debug (o percorso di installazione NSR corrispondente)
I nomi dei file e le relative funzioni sono descritti in dettaglio di seguito:
skip_recover_space_for_stage
- Storage node. Questo flag fa sì che NetWorker ignori la fase di recupero dello spazio di un'operazione di staging (clonazione seguita dall'eliminazione dell'origine). Se l'ambiente utilizza lo staging, in particolare lo staging ripetuto dagli stessi volumi di origine, questa operazione è consigliata in quanto nega la possibilità di generare più operazioni di spazio di ripristino per gli stessi volumi. Quando questo flag è attivo, l'operazione di recupero dello spazio viene completamente posticipata, consentendo al sistema di eliminare i file quando viene eseguita l'azione giornaliera di scadenza o quando il comando nsrimviene eseguito manualmente.
recover_space_anytime
- Solo server. Ciò consente di recuperare lo spazio per scadere e rimuovere i saveset sui volumi in lettura attiva, che per impostazione predefinita viene posticipato. Ciò significa che per i volumi con job di clonazione a esecuzione prolungata, la scadenza e il ripristino dello spazio possono essere posticipati ripetutamente quando viene eseguita l'azione Expiration, nsrim o un processo di staging (vedere il precedente). Questo, a sua volta, può causare backlog per il ripristino dello spazio di grandi dimensioni, un graduale esaurimento dello spazio libero e un lavoro di ripristino dello spazio più grande quando può essere eseguito.
skip_disk_usage
- Storage node. Per impostazione predefinita, nell'ambito del ripristino dello spazio e del controllo del file system del volume del disco, i singoli file vengono controllati e conteggiati in modo ricorsivo per produrre un'aggregazione precisa di dati per il volume. Sebbene alcuni possano considerare questa precisione essenziale, il rinvio di questo passaggio si basa sui record del database dei supporti di NetWorker per i file e i byte totali, che in genere possono essere sufficientemente accurati per la maggior parte degli utilizzi. In un Data Domain molto carico, in particolare in uno in cui molte operazioni di ripristino dello spazio vengono eseguite ripetutamente per i volumi, questa può essere considerata una spesa inutile e disabilitata in modo sicuro.
skip_consistency_check_in_recover_space
- Storage node. Durante il ripristino dello spazio per un volume, il file system del volume viene controllato file per file per garantire la coerenza tra il database dei supporti; Ciò può anche introdurre latenza. L'aggiunta di questo file chiave a ogni nodo impedirà a tale nodo di eliminare i file del saveset in cui non esiste un record corrispondente nel database dei supporti o di contrassegnare come "sospetti" i record del database dei supporti in cui non viene trovato alcun file. Si noti che ciò impedirà le normali operazioni di pulizia e deve essere utilizzato per qualificare la latenza correlata alle operazioni di ripristino dello spazio e non deve essere disabilitato a lungo termine.
Per impostazione predefinita, è stato introdotto un logging più dettagliato che fa sì che tutti i percorsi dei saveset vengano registrati nei log data_audit sul server NetWorker. Se è già presente un carico elevato, lavori di ripristino di spazio numeroso/esteso, questo è un fattore che può causare la mancata risposta, in particolare da parte degli storage node che restituiscono le informazioni in remoto a NetWorker. Per disabilitare questa funzione, aumentare la soglia di registrazione per questi log sul server NetWorker:
# nsradmin
# nsradmin> show name; auditlog severity
# print type: nsr auditlog
Limitare questa modifica in modo che influisca solo sul controllo dei dati, se si desidera, affinando la query nell'istanza specifica includendone il nome. Ignorare questo passaggio per riapplicare l'impostazione a ciascuno dei seguenti elementi:
# print type: nsr auditlog; name: servername_data_audit.raw
Modificare la soglia impostandola su una o entrambe su "Error" per interrompere la registrazione delle singole eliminazioni: le eliminazioni vengono comunque registrate nella daemon.raw del server.
# update auditlog severity: Error