Avamar: Capacità del sistema operativo (OS) (percorso di risoluzione)

Summary: Questo articolo sul percorso di risoluzione riguarda la gestione o la risoluzione dei problemi di capacità del sistema operativo (OS) su Avamar.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Come gestire o risolvere i problemi di capacità del sistema operativo su Avamar.

Questo articolo sul percorso di risoluzione è progettato per risolvere i problemi di capacità del sistema operativo su Avamar.


Per i concetti iniziali e la comprensione della capacità del sistema operativo, consultare l'articolo di formazione Avamar: Concetti e formazione

sul capacity managementCome riepilogato dall'articolo di formazione, è necessaria una comprensione ragionevole dei seguenti argomenti per procedere con il resto di questo articolo:

  • Una conoscenza di base dei checkpoint (cp), della convalida dei checkpoint (hfscheck)e Garbage Collection (GC) e l'importanza di ciascuno di essi
  • La differenza tra GSAN (nota anche come "capacità utente" e capacità del sistema operativo)
  • Dati di overhead del checkpoint
  • Se una qualsiasi delle partizioni dati supera l'89% dello spazio totale della capacità fisica del sistema operativo, non è possibile eseguire la garbage collection.
  • Più una griglia Avamar è vicina al 100% della capacità utente, minore è la capacità del sistema operativo disponibile per l'overhead dei checkpoint.
  • Fattori che contribuiscono all'overhead dei checkpoint, tra cui crunching asincrono, numero di checkpoint archiviati, HFSCheck e l'importanza della convalida dei checkpoint e così via.
  • Come trovare i livelli di capacità del sistema operativo
  • Azioni di base per ridurre la capacità del sistema operativo

 

Spesso è più semplice considerare la capacità del sistema operativo come la dimensione di GSAN dati (più specificamente, lo spazio allocato per questi dati) e l'overhead generato dai checkpoint Avamar. Maggiore è il numero di checkpoint e maggiore è la frequenza di modifica, maggiore è l'overhead del checkpoint.


L'impatto di un'elevata capacità del sistema operativo può includere:

  • Errore di garbage collection: GC ha esito negativo con MSG_ERR_DISKFULL se la capacità del sistema operativo supera l'89%
  • Errore di backup o replica: I backup o la replica in ingresso potrebbero non riuscire con MSG_ERR_STRIPECREATE se la capacità del sistema operativo supera il 90%. (Questo solo se è necessario creare un nuovo stripe di dati. Se non è necessario un nuovo striping, i backup e la replica potrebbero comunque essere eseguiti correttamente.
  • Errore del checkpoint: Un checkpoint ha esito negativo con MSG_ERR_DISKFULL se la capacità del sistema operativo supera il 96%


Come indicato sopra, la capacità del sistema operativo è spesso il primo tipo di capacità Avamar da affrontare quando anche altre capacità Avamar sono elevate. Come minimo, la garbage collection non può essere eseguita quando la capacità del sistema operativo raggiunge determinati livelli anche quando il GSAN o anche la capacità dell'utente è elevata.

In genere, la capacità del sistema operativo è considerata elevata quando GC ha esito negativo con MSG_ERR_DISKFULL se la capacità del sistema operativo supera l'89%. Se la capacità del sistema operativo è inferiore all'89%, nessun processo di manutenzione viene influenzato. 

 
Nota: Si prevede che la capacità del sistema operativo subisca variazioni nel corso della giornata. Verificare che i processi di manutenzione giornalieri vengano eseguiti correttamente è importante e, in genere, è la soluzione migliore per evitare problemi di capacità del sistema operativo, quando possibile.
 
Nota: Sebbene quanto sopra sia visto come capacità del sistema operativo Avamar, è possibile che ci siano problemi di capacità del sistema operativo non direttamente correlati a partizioni di backup o checkpoint. Questi sono i dischi e le partizioni in cui è installato il sistema operativo Linux. Sebbene questi problemi siano meno comuni, possono avere altri impatti che vengono discussi di seguito.

Cause

La capacità del sistema operativo Avamar può aumentare a causa di una combinazione dei seguenti motivi:

  • Tasso di modifica elevato dei dati di backup, aggiunta di "too much too fast"
  • Alto GSAN o "Capacità utente", che lascia meno spazio per la capacità del sistema operativo e talvolta può anche comportare tassi di modifica più elevati
  • Il checkpoint non viene completato correttamente, con conseguente stato "MSG_ERR_DISKFULL", come mostrato nell'output.
  • Una convalida del checkpoint (hfscheck) ha avuto esito negativo o non è stato eseguito di recente, in modo che i checkpoint meno recenti non possano essere eliminati o rimossi
  • I checkpoint non vengono sottoposti a rollback per altri motivi, tra cui impostazioni di retention dei checkpoint troppo elevate
 

L'elevata capacità del sistema operativo su altri partizionamenti del disco può derivare da varie cause, tra cui un posizionamento errato dei dati, file di registro troppo grandi e così via.

 
Una rapida spiegazione della frase "troppo e troppo velocemente" come motivo di un'elevata capacità del sistema operativo può essere spiegata come segue:
  • Per un rapido background, i checkpoint di Avamar sono un'istantanea read-only e un collegamento ai dati in tempo reale. Poiché questo viene creato con i link, un checkpoint utilizzerà zero spazio su disco aggiuntivo subito dopo la creazione. Se non vengono apportate modifiche ai dati in tempo reale, il checkpoint non utilizza spazio aggiuntivo.
  • Questo cambia man mano che i dati in tempo reale vengono modificati mentre il checkpoint rimane invariato. A quel punto, esiste una copia originale dei dati nel checkpoint e la Live Copy aggiornata dei dati modificati. Questo è completamente intenzionale e intenzionale. Questo è il motivo per cui c'è spazio riservato alla capacità del sistema operativo.
  • Tuttavia, se la quantità o la velocità di modifica dei dati aumenta drasticamente e improvvisamente, ciò può causare un picco non comune nelle dimensioni della capacità del sistema operativo ed essere considerati "troppo e troppo veloci"
  • La colonna capacity.sh mostra questa come causa quando si confronta l'output su diversi giorni.

Resolution

Se i processi di manutenzione, inclusa la garbage collection, non riescono a causa di un'elevata capacità del sistema operativo Avamar, attenersi alla seguente procedura:

1. Raccogliere tutte le informazioni sulla capacità Avamar per illustrare il quadro della situazione: Avamar: Come raccogliere le informazioni necessarie per risolvere i problemi di capacità.


2. Successivamente, verificare a quanto ammonta la capacità del sistema operativo e quali azioni potrebbero essere necessarie. Dall'articolo sulla raccolta dei dati, questo può essere trovato utilizzando il seguente comando: 

avmaint nodelist | egrep 'nodetag|fs-percent-full'
 

Come funziona Avamar, il valore PIÙ ALTO per fs-percent-full mostrato è il fattore limitante per la capacità corrente del sistema operativo. A seconda della generazione e delle dimensioni del tipo di nodo, il numero di partizioni dati che archiviano i dati di backup e dei checkpoint può variare. Come si vede dal sistema operativo Linux, possono essere dischi o partizioni come "/data0*", dove "*" può essere una cifra singola. Il numero di partizioni dati dipende dal tipo di nodo, dalla generazione dell'hardware e dalle dimensioni (e non può essere modificato).


3. Esaminare il numero di checkpoint trovati e l'ultima convalida del comando:

cplist
cp.20290310080041 Mon Mar 10 08:00:41 2025   valid rol ---  nodes   4/4 stripes   5980
cp.20290310080649 Mon Mar 10 08:06:49 2025   valid --- ---  nodes   4/4 stripes   5980
 
Nota: Alcuni punti di controllo devono SEMPRE essere mantenuti.
 
 

4. Verificare se le operazioni dei checkpoint hanno esito negativo da "MSG_ERR_DISKFULL" eseguendo il seguente comando:

dumpmaintlogs --types=cp --days=4 | grep "\<430"


Se i checkpoint sono stati completati correttamente, viene visualizzato un output simile al seguente:

2020/03/07-08:00:39.51323 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/07-08:01:31.49490 {0.0} <4301> completed checkpoint maintenance
2020/03/07-08:07:47.36128 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/07-08:08:29.40139 {0.0} <4301> completed checkpoint maintenance
2020/03/08-08:00:39.93332 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/08-08:01:29.50546 {0.0} <4301> completed checkpoint maintenance
2020/03/08-08:06:45.37918 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/08-08:07:27.36749 {0.0} <4301> completed checkpoint maintenance
2020/03/09-08:00:36.57433 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/09-08:01:24.22214 {0.0} <4301> completed checkpoint maintenance
2020/03/09-08:06:40.52884 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/09-08:07:22.18463 {0.0} <4301> completed checkpoint maintenance
2020/03/10-08:00:39.83562 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/10-08:01:31.87814 {0.0} <4301> completed checkpoint maintenance
2020/03/10-08:06:48.27867 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/10-08:07:29.95640 {0.0} <4301> completed checkpoint maintenance


In caso di errore a causa di MSG_ERR_DISKFULL, viene visualizzato questo output:

2020/03/07-08:00:39.51323 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/07-08:01:31.49490 {0.0} <4301> failed checkpoint maintenance with error MSG_ERR_DISKFULL
2020/03/07-08:07:47.36128 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/07-08:08:29.40139 {0.0} <4301> completed checkpoint maintenance
2020/03/08-08:00:39.93332 {0.0} <4300> failed checkpoint maintenance with error MSG_ERR_DISKFULL
2020/03/08-08:01:29.50546 {0.0} <4301> completed checkpoint maintenance
2020/03/08-08:06:45.37918 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/08-08:07:27.36749 {0.0} <4301> completed checkpoint maintenance
2020/03/09-08:00:36.57433 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/09-08:01:24.22214 {0.0} <4301> completed checkpoint maintenance
2020/03/09-08:06:40.52884 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/09-08:07:22.18463 {0.0} <4301> completed checkpoint maintenance
2020/03/10-08:00:39.83562 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/10-08:01:31.87814 {0.0} <4301> completed checkpoint maintenance
2020/03/10-08:06:48.27867 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/10-08:07:29.95640 {0.0} <4301> completed checkpoint maintenance
 
Se le operazioni dei checkpoint non riescono con errori MSG_ERR_DISKFULL, aprire una Service Request con il team di supporto Dell Technologies Avamar, altrimenti continuare dal passaggio 5.
 
 
5. Verificare se sono presenti altri problemi relativi ai checkpoint:
 
La colonna cplist command Mostra il numero di checkpoint trovati e l'ultima convalida di un checkpoint. Come illustrato anche nell'articolo sulla raccolta dei dati, utilizzare Avamar - Come comprendere l'output generato dal comando cplist per comprendere cplist prodotto.

Dovrebbero essere presenti due o tre checkpoint e almeno uno dei checkpoint delle ultime 24 ore risulta convalidato con hfscheck. Si tratta del normale comportamento e dell'output di tutti i processi in esecuzione correttamente e delle normali impostazioni di retention dei checkpoint.

Se sono presenti più di tre checkpoint o nessun checkpoint convalidato nelle ultime 24 ore, questo problema deve essere affrontato per primo in quanto potrebbe essere l'unico modo per ridurre la capacità del sistema operativo. Se viene riscontrato questo scenario, aprire una Service Request con Dell Technologies, altrimenti continuare dal passaggio 6.
 
 

6. Determinare il tasso di modifica:

capacity.sh  

 

Esempio di output:

  DATE     AVAMAR NEW     #BU    SCANNED       REMOVED     MINS PASS AVAMAR NET      CHG RATE
========== ============= ==== ============= =============  ==== ==== ============= ==========
2020-02-25       1066 mb    8     302746 mb       -641 mb     0   23        425 mb      0.35%
2020-02-26       1708 mb    8     303063 mb       -518 mb     0   23       1189 mb      0.56%
2020-02-27       3592 mb    8     304360 mb       -413 mb     0   23       3178 mb      1.18%
2020-02-28       1086 mb    8     304892 mb       -372 mb     0   23        713 mb      0.36%
2020-03-01       1002 mb    8     305007 mb      -7469 mb     0   25      -6467 mb      0.33%
2020-03-02        585 mb    7     197874 mb          0 mb     0    9        585 mb      0.30%
2020-03-03        348 mb    7     199305 mb          0 mb     0   10        348 mb      0.17%
2020-03-04        775 mb    7     198834 mb         -2 mb     0   10        773 mb      0.39%
2020-03-05        380 mb    4     196394 mb         -5 mb     0   10        375 mb      0.19%
2020-03-06       1068 mb    4     159960 mb          0 mb     0    9       1067 mb      0.67%
2020-03-07        443 mb    4     197132 mb        -18 mb     0   17        424 mb      0.23%
2020-03-08        348 mb    4     197231 mb        -48 mb     0   20        300 mb      0.18%
2020-03-09        370 mb    4     196506 mb          0 mb     0    9        370 mb      0.19%
2020-03-10        349 mb    4     197292 mb        -17 mb     0   20        332 mb      0.18%
2020-03-11        974 mb    2      77159 mb          0 mb     0    0        974 mb      1.26%
=============================================================================================
 14 DAY AVG       940 mb    5     222517 mb       -634 mb     0   15        306 mb      0.42%
 30 DAY AVG      1121 mb    5     195658 mb       -771 mb     0   14        349 mb      0.59%
 60 DAY AVG       994 mb    4     128657 mb      -1165 mb     0   17       -170 mb      0.98%

Top Change Rate Clients.  Total Data Added 14103mb

     NEW DATA % OF TOTAL CHGRATE TYPE CLIENT
============= ========== ======= ====
      6803 mb     48.24   0.91%  AVA /Windows/testing/Hyper-V/hyperv1
      3218 mb     22.82   0.61%  AVA /clients/exchange1
      2932 mb     20.80   0.44%  AVA /BMR/server1
       983 mb      6.97   0.10%  AVA /Windows/testing/SQL/sql1
        97 mb      0.69   1.13%  AVA /REPLICATE/grid2.company.com/MC_BACKUPS

 


A volte, se l'alto tasso di modifiche o la situazione di "troppo e troppo veloce" si ripresentano, questo può essere alleviato abbassando il GSAN o la capacità dell'utente. Con una riduzione GSAN capacità, c'è un po' più di spazio per l'overhead della capacità del sistema operativo e si traduce anche in un minor numero di modifiche del contenitore di storage dei dati. Per assistenza in questo scenario, aprire una Service Request con il team di supporto Dell Technologies Avamar, altrimenti continuare dal passaggio 7.

 

7. I problemi con elevate capacità del sistema operativo su altre partizioni del disco hanno varie cause, ma le soluzioni richiedono supporto tecnico. Aprire una Service Request con il team di supporto Dell Technologies Avamar, altrimenti continuare dal passaggio 7.

 
 

Una volta risolta la capacità del sistema operativo, GSAN o altre capacità Avamar possono essere riviste. Vedere Risoluzione dei problemi, problemi e domande sulla capacità di Avamar - Tutta la capacità (percorso di risoluzione)

 

Affected Products

Avamar, Avamar Server
Article Properties
Article Number: 000169014
Article Type: Solution
Last Modified: 12 Mar 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.