Avamar : Formation et concepts relatifs à la gestion de la capacité

Summary: Cet article porte sur la gestion de la capacité de l’utilisateur et du système d’exploitation Avamar. Il s’adresse aux administrateurs système Avamar ou à ceux qui surveillent l’intégrité d’une grille Avamar et qui ont besoin de comprendre comment fonctionne la gestion des niveaux de capacité des systèmes d’exploitation et des utilisateurs. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Pour des problèmes de gestion de la capacité liés au Data Domain, voir la section « Récupération du stockage sur un système Data Domain saturé » (en anglais) dans le Guide d’intégration du système Avamar et Data Domain (en anglais). Les guides relatifs à votre environnement d’exploitation se trouvent dans Comment trouver la documentation Avamar sur le site de support Dell.

Objectifs de cet article :
 
  • Résumer les types de données qui sont stockées dans les partitions /data*.
  • Présenter le concept de « capacité du système d’exploitation » et le comparer avec le concept de « capacité utilisateur » (parfois appelé « capacité GSAN »).
  • Expliquer pourquoi Avamar ne doit pas être exécuté à l’approche de la limite de la capacité utilisateur.
  • Répertorier les facteurs qui contribuent à la surcharge des points de contrôle.
  • Décrire comment surveiller l’utilisation de la partition de données.
  • Décrire les symptômes rencontrés si la capacité du système d’exploitation est hors de contrôle.
  • Répertorier les causes habituelles du MSG_ERR_DISKFULL message.
  • Décrire les méthodes de récupération utilisées lorsque la capacité élevée du système d’exploitation a un impact sur le fonctionnement normal du système.
  • Décrire les symptômes rencontrés si la capacité utilisateur dépasse la limite de capacité utilisateur.
  • Expliquer comment effectuer une récupération dans une situation de capacité utilisateur élevée.

Cet article suppose que le lecteur est familiarisé avec la section « Gestion de la capacité » (en anglais) du Guide des pratiques d’excellence opérationnelles d’Avamar (en anglais).

Les guides relatifs à votre environnement d’exploitation se trouvent dans Comment trouver la documentation Avamar sur le site de support Dell.

Parmi les problèmes courants qui affectent ou sont des symptômes d’une capacité du système d’exploitation trop élevée figurent les suivants :
  • Échec de la validation du point de contrôle (hfscheck).
  • Échec du nettoyage de la mémoire avec un message MSG_ERR_DISKFULL.
  • Échecs de la création des points de contrôle.
Parmi les symptômes courants qui sont étroitement associés à une « capacité utilisateur » trop élevée figurent les suivants :
  • Échec des sauvegardes.
  • Échec des tâches de réplication entrantes.
  • L’interface de l’administrateur affiche le système en mode Admin lors de l’ouverture de la fenêtre de sauvegarde.

Cause

Voir la section Résolution.

Resolution

Comment les données sont-elles stockées sur la grille Avamar ?


La gestion de la capacité d’Avamar concerne les données qui se trouvent dans les partitions /data* de tous les nœuds de données Avamar. Cela comprend :
  • les données de sauvegarde dédupliquées ;
  • les données de parité RAIN ;
  • les données de surcharge des points de contrôle
La parité RAIN et les données de points de contrôle constituent des couches de redondance disponibles pour Avamar en plus du RAID et de la réplication.

L’espace disponible dans les partitions de données est également obligatoire pour la bonne exécution des tâches de maintenance, telles que le nettoyage de la mémoire et le traitement asynchrone des bandes.

Voici une représentation graphique de l’espace de stockage physique disponible dans les partitions de données sur les nœuds de stockage Avamar.

Répartition de la capacité d’Avamar

 

Comment les données sont-elles stockées dans les partitions de données ?


Le schéma ci-dessus montre une représentation simple de l’utilisation de l’espace dans les partitions de données.

La valeur 100 % sur la gauche représente la quantité totale d’espace physique disponible sur le système d’exploitation dans les partitions de données.

Si l’une des partitions de données consomme plus de 85 % de l’espace total, le nettoyage de la mémoire ne peut pas s’exécuter.

Le marqueur de capacité utilisateur de 100 % (en lecture seule uniquement) indique qu’un maximum de 65 % de l’espace total de la partition de données est disponible pour le stockage des données dédupliquées. L’espace inférieur à ce marqueur de capacité utilisateur de 100 % est équivalent à la valeur d’utilisation du serveur qui est visible dans l’interface utilisateur de l’administrateur. Si la quantité de données dédupliquées stockées sur une partition de données sur n’importe quel nœud atteint 65 %, le système Avamar passe en lecture seule et refuse les données de sauvegarde.

Nous pouvons maintenant comprendre que, à partir de l’interface utilisateur d’Avamar Administrator, l’utilisateur a une visibilité sur l’espace consommé par les sauvegardes, mais n’a pas de visibilité sur l’espace consommé sur les partitions de données du système d’exploitation.

 

Pourquoi un système Avamar ne doit pas être exécuté à l’approche de la limite de « capacité utilisateur » :


La relation entre la « capacité utilisateur » élevée et la surcharge des points de contrôle est telle que, lorsqu’un système est de plus en plus saturé, même une augmentation légère des données de sauvegarde peut augmenter considérablement la surcharge des points de contrôle.

Cet article n’explique pas cette situation, mais il est important de noter ceci : Plus un système Avamar est proche de la capacité de 100 %, moins la capacité du système d’exploitation est disponible pour la surcharge des points de contrôle.

Sur un système saturé, comme nous pouvons le voir dans le schéma ci-dessus, la surcharge des points de contrôle est limitée à 20 % de l’espace total du système d’exploitation dans les partitions de données.

Pour qu’un système Avamar s’exécute de manière fiable à des niveaux élevés de « capacité utilisateur », il doit répondre aux critères suivants : Si l’une de ces instructions passe de true à false, il se peut que la surcharge des points de contrôle augmente progressivement ou atteigne un pic soudain, ce qui peut provoquer de graves problèmes de fonctionnement.

 

Facteurs qui contribuent à la surcharge des points de contrôle :


Les facteurs suivants peuvent faire augmenter la surcharge des points de contrôle.
  • Le traitement asynchrone des bandes (activé par défaut).
  • Le nombre de points de contrôle stockés sur le système.
  • La validation des points de contrôle n’a pas été correctement effectuée chaque jour.
  • L’état des bandes vides lorsqu’elles sont réutilisées par le serveur Avamar (ce problème est plus grave en cas d’utilisation plus intense du serveur).
  • Le taux de modification des sauvegardes quotidiennes.<
Un administrateur système dispose d’un certain degré de contrôle sur ces facteurs. La configuration du traitement asynchrone est réservée au support uniquement, mais les administrateurs peuvent supprimer les points de contrôle superflus, identifier les défaillances de point de contrôle et influencer l’utilisation du serveur et le taux de modification quotidienne des données.

 

Comment surveiller l’utilisation de la partition de données :


Pour surveiller l’utilisation de la partition de données du système d’exploitation, vous devez utiliser la commande Avamar suivante à partir d’Avamar Utility Node.

Par exemple :

admin@utilitynode:~/>: avmaint nodelist | grep fs-percent
        fs-percent-full="7.8"
        fs-percent-full="6.3"
        fs-percent-full="6.4"
        fs-percent-full="6.4"
        fs-percent-full="7.6"
        fs-percent-full="6.2"
        fs-percent-full="6.1"
        fs-percent-full="6.6"
        fs-percent-full="7.8"
        fs-percent-full="6.4"
        fs-percent-full="6.5"
        fs-percent-full="6.8"
Ce résultat vous donne un véritable aperçu de l’utilisation de la capacité du système d’exploitation. Dans une grille où les nœuds de données utilisent un pool de fichiers, la commande Linux df est inutile, car les bandes sont pré-allouées dans le pool de fichiers, et beaucoup de ces bandes peuvent ne pas être en cours d’utilisation.

 

Que se passe-t-il si l’utilisation de la capacité du système d’exploitation est hors de contrôle ?


Du point de vue de l’utilisateur, la première indication de la perte de contrôle du taux d’utilisation de la partition de données est une hausse de 85 %.

Le nettoyage de la mémoire ne peut plus être exécuté et échoue avec un MSG_ERR_DISKFULL message d’erreur.

Voici les cas d’incompréhensions les plus fréquents : L’utilisateur interprète souvent le message MSG_ERR_DISKFULL comme une indication que le système n’a plus d’espace pour les sauvegardes.

Alors que cette interprétation n’est pas correcte, l’utilisateur vérifie généralement la valeur d’utilisation du serveur dans l’interface utilisateur d’Avamar Administrator et trouve que la valeur est acceptable, par exemple, 60 %.

L’utilisateur peut tenter de supprimer des sauvegardes à partir de l’interface de gestion des sauvegardes de l’interface utilisateur d’Avamar. Même si le niveau de capacité utilisateur était élevé, la suppression des sauvegardes ne résoudrait pas le problème puisque le nettoyage de la mémoire ne peut pas s’exécuter et supprimer les fragments de données expirés du système.

Si un système rencontre à la fois un problème de capacité élevée du système d’exploitation et une capacité utilisateur élevée, concentrez-vous d’abord sur la capacité du système d’exploitation.

Dans le cas d’une utilisation élevée de la capacité du système d’exploitation, le système peut manquer d’espace pour créer des points de contrôle.

 

Qu’est-ce qui provoque le message MSG_ERR_DISKFULL ?


La raison la plus courante est une surcharge des points de contrôle trop élevée. Les causes habituelles de cette surcharge peuvent être les suivantes :
  • La validation des points de contrôle (hfscheck) a échoué à plusieurs reprises.
  • Un échec de hfscheck a de nombreuses causes premières possibles (annulation brutale, défaillance logicielle, etc.).
  • Le système est trop saturé et présente un taux de modification quotidienne des données élevé.
  • Le système a besoin de plus de nœuds de données pour gérer le taux de modification des données et stocker les données.
  • Le système est configuré pour sauvegarder plus de données ou de clients que ce que sa taille prévoit.
  • Un trop grand nombre de points de contrôle sont stockés (Avamar stocke deux points de contrôle par défaut, dont l’un d’entre eux a été validé).
  • L’administrateur système a créé un nombre excessif de points de contrôle.
  • La maintenance a récemment été exécutée, mais les conservations de points de contrôle par défaut n’ont pas été rétablies.

Voir l’article suivant pour résoudre un problème de type MSR_ERR_DISKFULL : Les tâches de maintenance Avamar échouent avec le message « MSG_ERR_DISKFULL » en raison d’une capacité du système d’exploitation de la partition de données > à 89 % (en anglais).

 

Actions à effectuer pour enquêter et réduire la capacité du système d’exploitation.


1. Déterminez quand la dernière opération hfscheck s’est terminée. Cela peut se faire avec Avamar Administrator ou la ligne de commande Avamar Utility Node :
  • Dans Avamar Administrator, accédez à l’onglet Server > Checkpoint Management.
  • Vérifiez la date et l’heure les plus récentes répertoriées dans la colonne Checkpoint Validation. Cette opération devrait avoir eu lieu au cours des dernières 24 heures.
ou
 
  • À l’aide de la ligne de commande Avamar Utility Node, exécutez la commande : cplist.
Vous trouverez ci-dessous un exemple de résultat CLI.
 
admin@utilitynode:~/>: cplist
cp.20110114111419 Fri Jan 14 11:14:19 2011   valid rol ---  nodes   3/3 stripes   1131
cp.20110114194457 Fri Jan 14 19:44:57 2011   valid --- ---  nodes   3/3 stripes   1131
 
Le point de contrôle validé le plus récent répertorié ici est daté au 14 janvier, à 11 h 14. Nous pouvons l’identifier grâce à la balise juste après le marqueur « valid ». En fonction des types d’opérations hfscheck définies sur le système, la balise peut être rol ou hfs. Ici, nous avons un rol (restauration de hfscheck).

Si les résultats indiquent que le dernier point de contrôle validé date de plus de 24 heures, cherchez pourquoi. Cela peut être dû à une non-exécution ou à un échec de l’opération HFScheck.


2. Vérifiez si l’opération HFScheck a été exécutée ou si elle a échoué.
 
Sur l’Avamar Utility Node, exécutez status.dpn et recherchez la ligne contenant Last hfscheck.

Par exemple :
 
Last hfscheck: finished Sat Jan 15, 11:07:17 2011 after 06m 41s >> checked 528 of 528 stripes (OK)
Notez à quel moment l’opération s’est terminée et son état (dans la ligne au-dessus de l’état, qui affiche « OK »).
 
Remarque : le script sched.sh peut également être utilisé pour identifier le moment où une opération HFScheck a été exécutée et si elle a réussi.
 
Si des tâches hfscheck ont échoué, vous devez chercher immédiatement pourquoi.
 
Si des tâches hfscheck n’ont pas été exécutées récemment, vérifiez que le planificateur de maintenance est activé en exécutant la commande suivante sur l’Avamar Utility Node : dpnctl status maint
.
admin@utilitynode:~/>: dpnctl status maint
Identity added: /home/admin/.ssh/dpnid (/home/admin/.ssh/admin_key)
dpnctl: INFO: Maintenance windows scheduler status: enabled.

  • Si le planificateur de fenêtres de maintenance est arrêté, désactivé ou suspendu, activez-le à l’aide de la commande dpnctl start maint.
  • Si vous le souhaitez, prenez un nouveau point de contrôle et exécutez hfscheck, ou attendez la fin de la prochaine fenêtre de maintenance planifiée.


Une fois qu’une opération hfscheck s’est terminée avec succès (après avoir résolu les problèmes ou redémarré le planificateur de maintenance), le point de contrôle le plus ancien est « déployé » et la capacité du système d’exploitation doit diminuer considérablement.

  • Si la capacité du système d’exploitation est toujours trop élevée et que le nettoyage de la mémoire échoue avec le message MSG_ERR_DISKFULL, vous devriez peut-être demander de l’aide au support technique Dell.
  • Mais, si la capacité du système d’exploitation est assez faible pour permettre l’exécution du nettoyage de la mémoire, essayez de réduire la capacité utilisateur ainsi que la valeur « d’utilisation du serveur ».

 

 

Actions pour réduire la capacité utilisateur élevée :


Contrairement à la capacité du système d’exploitation, les niveaux de capacité utilisateur sont plus facilement et directement influencés par l’administrateur système Avamar.

1. Assurez-vous que le nettoyage de la mémoire est exécuté tous les jours et qu’il n’est pas interrompu par des sauvegardes.


C’est le point le plus important. En effet, même un système de taille suffisante est rapidement confronté à une capacité utilisateur élevée si le nettoyage de la mémoire ne s’exécute pas régulièrement ou de manière fiable.

Comme indiqué précédemment, assurez-vous que la fenêtre de maintenance est activée et utilisez les scripts capacity.sh et sched.sh pour vérifier que le nettoyage de la mémoire est en cours d’exécution et qu’il supprime des données.

Dans les versions avant la v7.x d’Avamar, les sauvegardes ne pouvaient pas s’exécuter pendant la fenêtre de « restriction » du nettoyage de la mémoire.

La fonctionnalité Hash Referenced Bit Maps introduite avec la fonctionnalité Avamar v7.x permet d’effectuer des sauvegardes pendant l’activité de maintenance du nettoyage de la mémoire. Cette fonctionnalité nécessite que ces « cartes » disposent d’au moins 5 minutes de temps « calme » par jour pendant lesquelles aucune sauvegarde n’est exécutée afin qu’elles puissent être réinitialisées.

Le contenu relatif à cette fonctionnalité est accessible à l’aide du lien vers l’article Avamar : À partir d’Avamar v7, le nettoyage de la mémoire signale des « hachages ignorés » qui ne peuvent pas être nettoyés en raison des « mappages de bits référencés par hachage » lorsque les données sont en cours d’utilisation (en anglais).


2. Arrêtez l’ajout de nouveaux clients à la grille.
 


Lorsqu’une grille Avamar approche de sa limite de capacité, il est recommandé d’arrêter immédiatement l’ajout de nouveaux clients pour empêcher la situation de s’aggraver.

Si vous disposez d’une autre grille Avamar qui s’exécute à un niveau inférieur d’utilisation du serveur, envisagez d’y ajouter de nouveaux clients au lieu du serveur qui est saturé.


3. Détectez les clients qui consomment la plus grande quantité d’espace de stockage.

Pour résoudre un problème de capacité, nous devons identifier les clients responsables de l’ajout de la plus grande partie des données au système Avamar.

Vous pouvez également utiliser le script capacity.sh (exécuté à partir de la ligne de commande Avamar Utility Node) pour identifier les clients dont la fréquence de modification est la plus élevée.

Les utilisateurs Dell inscrits peuvent accéder au contenu à l’aide du lien vers l’article Avamar : Comment gérer la capacité avec le script capacity.sh (en anglais) pour plus d’informations sur l’utilisation du script capacity.sh.

Souvent, les clients les plus « gourmands » sont ceux qui sauvegardent des bases de données SQL ou des serveurs de messagerie, prêtez-y donc une attention particulière.


4. Réévaluez les règles de conservation.
 

Après avoir identifié les clients dont le taux de modification est élevé, réévaluez les règles de conservation pour voir si vous pouvez en abaisser certaines afin de réduire les besoins de stockage à un niveau acceptable.

Remarque : il est recommandé de définir des politiques de conservation sur au moins 14 jours.

Si la taille du système est suffisante pour faire expirer les sauvegardes conservées depuis le plus longtemps, après la réduction des règles de conservation, vous devriez constater une augmentation de la quantité de données supprimées chaque jour par le nettoyage de la mémoire. Surveillez cette tendance avec le script capacity.sh.

Si le système Avamar n’est pas encore assez ancien pour que les sauvegardes expirent, vous devrez peut-être modifier les règles de conservation afin que les sauvegardes les plus anciennes commencent à expirer.

S’il n’est pas possible de réduire les politiques de conservation en raison d’exigences réglementaires, vous devez envisager d’étendre le système Avamar ou de migrer les clients vers un autre système Avamar, moins utilisé.


5. Migrez les clients vers un autre système Avamar.


Si un autre système Avamar est disponible, envisagez de migrer les clients dont le taux de modification est volumineux ou élevé à partir de systèmes utilisés intensément vers des systèmes moins sollicités à l’aide de l’interface Avamar Client Manager.

Remarque :
  • le nouveau serveur Avamar nécessite une capacité de stockage suffisante pour les clients Avamar que vous souhaitez migrer.
  • Conservez les clients dont le type de données est similaire sur le même système Avamar pour tirer parti de l’efficacité de la déduplication.
  • Cette stratégie est plus efficace lorsque les systèmes Avamar se trouvent sur le même réseau local.


6. Supprimez les anciennes sauvegardes.
 

Si le niveau de capacité utilisateur est très important (>90 %), il peut être nécessaire de faire expirer les anciennes sauvegardes via l’interface de gestion des sauvegardes ou à l’aide de l’outil modify-snapups

Les utilisateurs Dell peuvent accéder au contenu à l’aide du lien vers l’article Gestion de la capacité d’Avamar : comment supprimer ou faire expirer des sauvegardes en bloc avec l’outil « modify-snapups » (en anglais)

La suppression des sauvegardes ne réduit pas immédiatement le niveau d’utilisation du serveur. Grâce à cette opération, le nettoyage de la mémoire peut démarrer la suppression des données lors de la prochaine exécution du nettoyage de la mémoire. La suppression des anciennes sauvegardes est une solution de contournement à court terme. Les sauvegardes seront remplacées au cours des prochains jours. Si vous supprimez des sauvegardes, il est essentiel d’ajuster des politiques de conservation.


7. Surveillez la modification des données à l’aide de capacity.sh.
 

Une fois les sauvegardes supprimées et les politiques de conservation modifiées, surveillez attentivement la quantité de données modifiées sur le système à l’aide du script capacity.sh. Vous devriez commencer à constater une hausse de la valeur des données « supprimées » et la valeur « Net Change » devrait devenir négative. Finalement, à mesure que les données excédentaires sont supprimées du système, la valeur « Removed » commence à revenir à des niveaux plus normaux. Continuez à surveiller la valeur « Removed ».

Si la valeur de modification nette ne devient pas négative, vérifiez le journal de nettoyage de la mémoire pour voir pendant combien de temps l’opération de nettoyage de la mémoire s’exécute et la quantité de travail qu’il est possible de réaliser dans la fenêtre de maintenance.

Les utilisateurs Dell peuvent accéder au contenu à l’aide du lien vers l’article Avamar : comment gérer la capacité avec le script capacity.sh (en anglais) pour plus d’informations sur l’utilisation du script capacity.sh.


8. Développez le système Avamar :


Souvent, l’utilisation élevée du système Avamar est due à une prolifération des données naturelle et attendue. Pour poursuivre les sauvegardes de production, vous devez disposer de davantage d’espace.

Pour y parvenir, tout dépend du type de système Avamar dont vous disposez.

  • Systèmes à un seul nœud et systèmes Avamar Virtual Edition (AVE)

Ces systèmes ne peuvent pas être étendus. Commandez un deuxième système Avamar, plus grand, et demandez aux services professionnels de Dell d’effectuer une migration de système, du plus petit vers le plus grand. Les services professionnels peuvent être contactés par l’intermédiaire du responsable de compte Dell.

Le nouveau système peut être un système à un seul nœud, AVE ou à plusieurs nœuds, tant qu’il fournit plus d’espace de stockage que le système source.

  • Systèmes à plusieurs nœuds

Ces systèmes peuvent être étendus jusqu’à 16 nœuds de données. Pour plus d’informations, contactez le responsable de compte Dell. Les canaux de support habituels n’effectuant pas d’ajouts de nœuds, aucune demande de service ne doit donc être ouverte pour demander cette opération.

  • Intégration de Data Domain

L’intégration d’un système Data Domain en tant que périphérique de stockage back-end est un moyen utile pour étendre la capacité disponible pour les clients qui sauvegardent sur Avamar. Discutez des options avec votre responsable de compte Dell.

 

Additional Information

Outils utiles

  • status.dpn
  • capacity.sh
  • Avalanche
  • Rapport de synthèse DPN
  • replcnt.sh
  • Avamar Client Manager


Meilleure pratiques :

  • Essayez d’éviter que la valeur d’utilisation (capacité utilisateur) d’Avamar Server dépasse 80 %.
  • Une capacité utilisateur inférieure fournit une résilience contre les modifications inattendues au niveau de la quantité de données ajoutées et peut apporter une protection contre le système qui devient inutilisable en cas de défaillances inattendues ou de problèmes à court terme au niveau des tâches de maintenance.
  • Un système Avamar fonctionnant avec une capacité utilisateur supérieure à 80 % nécessite une surveillance plus poussée par l’administrateur système pour garantir que les tâches de maintenance se déroulent correctement et que le système ne passe pas en lecture seule.

Affected Products

Avamar

Products

Avamar
Article Properties
Article Number: 000079977
Article Type: Solution
Last Modified: 07 Jun 2024
Version:  18
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.