Avamar : Capacité du système d’exploitation (SE) (chemin de résolution)

Summary: Cet article de résolution concerne la gestion ou le dépannage des problèmes de capacité du système d’exploitation (OS) sur Avamar.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Gérer ou résoudre les problèmes de capacité du système d’exploitation sur Avamar.

Cet article de résolution est conçu pour traiter ou résoudre les problèmes de capacité du système d’exploitation sur Avamar.


Pour connaître les concepts initiaux et comprendre la capacité du système d’exploitation, reportez-vous à l’article de formation Avamar : Concepts et formation

en matière de gestion des capacités
Comme indiqué dans l’article de formation, une compréhension raisonnable des rubriques suivantes est requise pour poursuivre la suite de cet article :

  • Une compréhension de base des points de contrôle (CP), de la validation des points de contrôle (hfscheck)et le nettoyage de la mémoire (GC), ainsi que l’importance de chaque
  • La différence entre GSAN (également appelée « capacité utilisateur » et capacité du système d’exploitation)
  • les données de surcharge des points de contrôle
  • Si l’une des partitions de données représente plus de 89 % de l’espace de capacité physique totale du système d’exploitation, le nettoyage de la mémoire ne peut pas s’exécuter.
  • Plus une grille Avamar est proche de 100 % de la capacité utilisateur, moins il y a de capacité de système d’exploitation disponible pour la surcharge des points de contrôle.
  • Les facteurs qui contribuent à la surcharge des points de contrôle, y compris le traitement asynchrone, le nombre de points de contrôle stockés, HFSCheck et l’importance de la validation des points de contrôle, et ainsi de suite.
  • Comment trouver les niveaux de capacité du système d’exploitation
  • Actions de base pour alléger la capacité du système d’exploitation

 

Il est souvent plus facile de considérer la capacité du système d’exploitation comme la taille du GSAN (plus précisément l’espace alloué à ces données) et la surcharge générée par les points de contrôle Avamar. Plus le nombre de points de contrôle et le taux de modification sont élevés, plus la surcharge du point de contrôle est élevée.


Les impacts d’une capacité élevée du système d’exploitation peuvent inclure les éléments suivants :

  • Échec du nettoyage de la mémoire : GC échoue avec MSG_ERR_DISKFULL si la capacité du système d’exploitation dépasse 89 %
  • Échec de la sauvegarde ou de la réplication : Les sauvegardes ou la réplication entrante peuvent échouer avec MSG_ERR_STRIPECREATE si la capacité du système d’exploitation dépasse 90 %. (Ceci uniquement si une nouvelle bande de données doit être créée. Si une nouvelle bande n’est pas nécessaire, les sauvegardes et la réplication peuvent toujours s’exécuter correctement.)
  • Échec du point de contrôle : Un point de contrôle échoue avec MSG_ERR_DISKFULL si la capacité du système d’exploitation dépasse 96 %


Comme indiqué ci-dessus, la capacité du système d’exploitation est souvent le premier type de capacité Avamar à traiter lorsque les autres capacités Avamar sont également élevées. Au minimum, le nettoyage de la mémoire ne peut pas être exécuté lorsque la capacité du système d’exploitation atteint certains niveaux, même lorsque GSAN ou la capacité utilisateur est également élevée.

En règle générale, la capacité du système d’exploitation est considérée comme élevée lorsque le GC échoue avec MSG_ERR_DISKFULL si la capacité du système d’exploitation dépasse 89 %. Si la capacité du système d’exploitation est inférieure à 89 %, aucune tâche de maintenance n’est affectée. 

 
Remarque : On peut s’attendre à ce que la capacité du système d’exploitation fluctue tout au long de la journée. Il est important de vérifier que les tâches de maintenance quotidiennes se déroulent sans problème. C’est généralement la meilleure solution pour éviter les problèmes de capacité du système d’exploitation lorsque cela est possible.
 
Remarque : Bien que les éléments ci-dessus soient considérés comme la capacité du système d’exploitation Avamar, il est possible qu’il y ait des problèmes de capacité du système d’exploitation qui ne sont pas directement liés aux partitions de sauvegarde ou aux points de contrôle. Il s’agit des disques et des partitions sur lesquels le système d’exploitation Linux est installé. Bien que ces problèmes soient moins courants, ils peuvent avoir d’autres impacts qui sont abordés ci-dessous.

Cause

La capacité du système d’exploitation Avamar peut augmenter pour n’importe quelle combinaison des raisons suivantes :

  • Taux de modification élevé des données de sauvegarde, ajout de « trop trop rapide »
  • Élevé GSAN ou « User Capacity » qui laisse moins de place pour la capacité du système d’exploitation et peut parfois même entraîner des taux de modification plus élevés
  • Le point de contrôle ne s’est pas terminé correctement, ce qui entraîne l’état « MSG_ERR_DISKFULL » comme indiqué dans la sortie.
  • Une validation de point de contrôle (hfscheck) a échoué ou n’a pas été exécuté récemment, de sorte que les points de contrôle les plus anciens ne peuvent pas annuler ou être supprimés
  • Les points de contrôle ne sont pas supprimés pour d’autres raisons, notamment des paramètres de rétention des points de contrôle trop élevés
 

Une capacité élevée du système d’exploitation sur d’autres partitions de disque peut provenir de diverses causes, notamment un placement incorrect des données, des fichiers log devenus trop volumineux, etc.

 
Voici une explication rapide de l’expression « trop, trop vite » expliquant la capacité élevée du système d’exploitation :
  • Pour un arrière-plan rapide, les points de contrôle Avamar sont un snapshot en lecture seule et un lien vers les données en direct. Étant donné qu’il est créé avec des liens, un point de contrôle n’utilisera aucun espace disque supplémentaire immédiatement après sa création. Si aucune modification n’est apportée aux données en direct, le point de contrôle n’utilise pas d’espace supplémentaire.
  • Cela change à mesure que les données dynamiques sont modifiées tandis que le point de contrôle reste le même. À ce stade, il existe une copie d’origine des données dans le point de contrôle et la Live Copy mise à jour des données modifiées. C’est tout à fait intentionnel. C’est la raison pour laquelle il existe un espace réservé à la capacité du système d’exploitation.
  • Toutefois, si la quantité ou le taux de modification des données augmente considérablement et soudainement, cela peut provoquer un pic inhabituel dans la taille de la capacité du système d’exploitation et être considéré comme « trop, trop rapide »
  • La commande capacity.sh indique que cela est la cause lors de la comparaison de la sortie sur plusieurs jours.

Resolution

Si les tâches de maintenance, y compris le nettoyage de la mémoire, échouent à cause d’une capacité élevée du système d’exploitation Avamar, procédez comme suit :

1. Rassemblez toutes les informations sur la capacité Avamar pour brosser un tableau de la situation : Avamar : Comment collecter les informations nécessaires au dépannage des problèmes de capacité.


2. Examinez ensuite la capacité du système d’exploitation et les actions requises. À partir de l’article sur la collecte de données, vous pouvez le trouver à l’aide de la commande suivante : 

avmaint nodelist | egrep 'nodetag|fs-percent-full'
 

Le fonctionnement d’Avamar est le suivant : la valeur la PLUS ÉLEVÉE indiquée pour fs-percent-full est le facteur limitatif de la capacité actuelle du système d’exploitation. En fonction de la génération et de la taille du type de nœud, le nombre de partitions de données stockant les données de sauvegarde et de point de contrôle peut varier. Comme le montre le système d’exploitation Linux, il peut s’agir de disques ou de partitions comme « /data0* », où « * » peut être un seul chiffre. Le nombre de partitions de données dépend du type de nœud, de la génération de matériel et de la taille (et ne peut pas être modifié).


3. Vérifiez le nombre de points de contrôle trouvés et la date à laquelle ils ont été validés à partir de la commande :

cplist
cp.20290310080041 Mon Mar 10 08:00:41 2025   valid rol ---  nodes   4/4 stripes   5980
cp.20290310080649 Mon Mar 10 08:06:49 2025   valid --- ---  nodes   4/4 stripes   5980
 
Remarque : Certains points de contrôle doivent néanmoins être conservés.
 
 

4. Vérifiez si les opérations de point de contrôle échouent à partir de « MSG_ERR_DISKFULL » en exécutant la commande suivante :

dumpmaintlogs --types=cp --days=4 | grep "\<430"


Si les points de contrôle ont été exécutés avec succès, un résultat similaire à ce qui suit s’affiche :

2020/03/07-08:00:39.51323 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/07-08:01:31.49490 {0.0} <4301> completed checkpoint maintenance
2020/03/07-08:07:47.36128 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/07-08:08:29.40139 {0.0} <4301> completed checkpoint maintenance
2020/03/08-08:00:39.93332 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/08-08:01:29.50546 {0.0} <4301> completed checkpoint maintenance
2020/03/08-08:06:45.37918 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/08-08:07:27.36749 {0.0} <4301> completed checkpoint maintenance
2020/03/09-08:00:36.57433 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/09-08:01:24.22214 {0.0} <4301> completed checkpoint maintenance
2020/03/09-08:06:40.52884 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/09-08:07:22.18463 {0.0} <4301> completed checkpoint maintenance
2020/03/10-08:00:39.83562 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/10-08:01:31.87814 {0.0} <4301> completed checkpoint maintenance
2020/03/10-08:06:48.27867 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/10-08:07:29.95640 {0.0} <4301> completed checkpoint maintenance


En cas d’échec en raison d’une MSG_ERR_DISKFULL, la sortie suivante s’affiche :

2020/03/07-08:00:39.51323 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/07-08:01:31.49490 {0.0} <4301> failed checkpoint maintenance with error MSG_ERR_DISKFULL
2020/03/07-08:07:47.36128 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/07-08:08:29.40139 {0.0} <4301> completed checkpoint maintenance
2020/03/08-08:00:39.93332 {0.0} <4300> failed checkpoint maintenance with error MSG_ERR_DISKFULL
2020/03/08-08:01:29.50546 {0.0} <4301> completed checkpoint maintenance
2020/03/08-08:06:45.37918 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/08-08:07:27.36749 {0.0} <4301> completed checkpoint maintenance
2020/03/09-08:00:36.57433 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/09-08:01:24.22214 {0.0} <4301> completed checkpoint maintenance
2020/03/09-08:06:40.52884 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/09-08:07:22.18463 {0.0} <4301> completed checkpoint maintenance
2020/03/10-08:00:39.83562 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/10-08:01:31.87814 {0.0} <4301> completed checkpoint maintenance
2020/03/10-08:06:48.27867 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/10-08:07:29.95640 {0.0} <4301> completed checkpoint maintenance
 
Si les opérations de point de contrôle échouent avec des erreurs de MSG_ERR_DISKFULL, ouvrez une demande de service auprès de l’équipe de support Dell Technologies Avamar, sinon poursuivez à partir de l’étape 5.
 
 
5. Vérifiez s’il existe d’autres problèmes de point de contrôle :
 
La commande cplist command Indique le nombre de points de contrôle trouvés et la date à laquelle un point de contrôle a été validé. Comme indiqué dans l’article sur la collecte de données, utilisez Avamar : comment comprendre le résultat généré par la commande cplist pour comprendre le cplist sortie.

Il doit y avoir deux ou trois points de contrôle, et au moins l’un des points de contrôle des dernières 24 heures s’affiche comme validé avec hfscheck. Il s’agit d’un comportement normal résultant de toutes les tâches exécutées avec succès et des paramètres de rétention des points de contrôle normaux.

S’il existe plus de trois points de contrôle ou qu’aucun point de contrôle n’a été validé au cours des dernières 24 heures, vous devez d’abord traiter ce problème, car il peut s’agir du seul moyen de réduire la capacité du système d’exploitation. Si cela se produit, ouvrez une demande de service auprès de Dell Technologies, sinon continuez à partir de l’étape 6.
 
 

6. Déterminez le taux de changement :

capacity.sh  

 

Exemple de résultat :

  DATE     AVAMAR NEW     #BU    SCANNED       REMOVED     MINS PASS AVAMAR NET      CHG RATE
========== ============= ==== ============= =============  ==== ==== ============= ==========
2020-02-25       1066 mb    8     302746 mb       -641 mb     0   23        425 mb      0.35%
2020-02-26       1708 mb    8     303063 mb       -518 mb     0   23       1189 mb      0.56%
2020-02-27       3592 mb    8     304360 mb       -413 mb     0   23       3178 mb      1.18%
2020-02-28       1086 mb    8     304892 mb       -372 mb     0   23        713 mb      0.36%
2020-03-01       1002 mb    8     305007 mb      -7469 mb     0   25      -6467 mb      0.33%
2020-03-02        585 mb    7     197874 mb          0 mb     0    9        585 mb      0.30%
2020-03-03        348 mb    7     199305 mb          0 mb     0   10        348 mb      0.17%
2020-03-04        775 mb    7     198834 mb         -2 mb     0   10        773 mb      0.39%
2020-03-05        380 mb    4     196394 mb         -5 mb     0   10        375 mb      0.19%
2020-03-06       1068 mb    4     159960 mb          0 mb     0    9       1067 mb      0.67%
2020-03-07        443 mb    4     197132 mb        -18 mb     0   17        424 mb      0.23%
2020-03-08        348 mb    4     197231 mb        -48 mb     0   20        300 mb      0.18%
2020-03-09        370 mb    4     196506 mb          0 mb     0    9        370 mb      0.19%
2020-03-10        349 mb    4     197292 mb        -17 mb     0   20        332 mb      0.18%
2020-03-11        974 mb    2      77159 mb          0 mb     0    0        974 mb      1.26%
=============================================================================================
 14 DAY AVG       940 mb    5     222517 mb       -634 mb     0   15        306 mb      0.42%
 30 DAY AVG      1121 mb    5     195658 mb       -771 mb     0   14        349 mb      0.59%
 60 DAY AVG       994 mb    4     128657 mb      -1165 mb     0   17       -170 mb      0.98%

Top Change Rate Clients.  Total Data Added 14103mb

     NEW DATA % OF TOTAL CHGRATE TYPE CLIENT
============= ========== ======= ====
      6803 mb     48.24   0.91%  AVA /Windows/testing/Hyper-V/hyperv1
      3218 mb     22.82   0.61%  AVA /clients/exchange1
      2932 mb     20.80   0.44%  AVA /BMR/server1
       983 mb      6.97   0.10%  AVA /Windows/testing/SQL/sql1
        97 mb      0.69   1.13%  AVA /REPLICATE/grid2.company.com/MC_BACKUPS

 


Parfois, si le taux de changement élevé ou la situation « trop, trop vite » se reproduit, cela peut être atténué en diminuant le taux de change global. GSAN ou la capacité de l’utilisateur. Avec un prix inférieur GSAN , il y a un peu plus de place pour la surcharge de capacité du système d’exploitation et entraîne également moins de modifications du conteneur de stockage de données. Pour obtenir de l’aide sur ce scénario, ouvrez une demande de service auprès de l’équipe de support Dell Technologies Avamar. Sinon, poursuivez à partir de l’étape 7.

 

7. Les problèmes liés aux capacités élevées du système d’exploitation sur d’autres partitions de disque ont diverses causes, mais les solutions nécessitent un support technique. Ouvrez une demande de service auprès de l’équipe de support Dell Technologies Avamar, sinon poursuivez à partir de l’étape 7.

 
 

Une fois la capacité du système d’exploitation traitée, GSAN ou d’autres capacités d’Avamar peuvent être examinées. Consultez la section Dépannage, problèmes et questions relatifs à la capacité d’Avamar - Toute la capacité (chemin de résolution)

 

Affected Products

Avamar, Avamar Server
Article Properties
Article Number: 000169014
Article Type: Solution
Last Modified: 12 Mar 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.