Avamar : Formation et concepts relatifs à la gestion de la capacité
Résumé: Cet article porte sur la gestion de la capacité de l’utilisateur et du système d’exploitation Avamar. Les lecteurs visés sont les administrateurs Avamar et les personnes qui surveillent l’intégrité d’Avamar, qui ont besoin de connaissances pratiques sur la gestion du système d’exploitation et de la capacité utilisateur. ...
Symptômes
Pour des problèmes de gestion de la capacité liés au Data Domain, voir la section « Récupération du stockage sur un système Data Domain saturé » (en anglais) dans le Guide d’intégration du système Avamar et Data Domain (en anglais).
Les guides relatifs à votre environnement d’exploitation sont disponibles ici : Comment accéder à la documentation Avamar sur le site de support Dell.
-
Résumer les types de données qui sont stockées dans les partitions /data*.
-
Présentez le concept de « capacité du système d’exploitation (OS) » et comparez-le au concept de « capacité utilisateur » (parfois appelé «
GSANCapacité.") -
Expliquer pourquoi Avamar ne doit pas être exécuté à l’approche de la limite de la capacité utilisateur.
-
Répertorier les facteurs qui contribuent à la surcharge des points de contrôle.
-
Décrire comment surveiller l’utilisation de la partition de données.
-
Décrire les symptômes rencontrés si la capacité du système d’exploitation est hors de contrôle.
-
Répertorier les causes habituelles du
MSG_ERR_DISKFULLmessage. -
Décrire les méthodes de récupération utilisées lorsque la capacité élevée du système d’exploitation a un impact sur le fonctionnement normal du système.
-
Décrire les symptômes rencontrés si la capacité utilisateur dépasse la limite de capacité utilisateur.
-
Expliquer comment effectuer une récupération dans une situation de capacité utilisateur élevée.
Cet article suppose que le lecteur a pris connaissance de la section « Gestion de la capacité » du Guide des pratiques d’excellence opérationnelle d’Avamar.
Là encore, les guides relatifs à votre environnement d’exploitation sont disponibles ici : Comment accéder à la documentation Avamar sur le site de support Dell.
Les problèmes courants qui affectent ou sont des symptômes d’une capacité élevée du système d’exploitation sont les suivants :
-
Validation des points de contrôle (
hfscheck) est défaillant. -
Le nettoyage de la mémoire ne s’exécute pas et signale
MSG_ERR_DISKFULL. -
Échecs de la création des points de contrôle.
-
Échec des sauvegardes.
-
Échec des tâches de réplication entrantes.
-
L’interface de l’administrateur affiche le système en mode Admin lors de l’ouverture de la fenêtre de sauvegarde.
Cause
Cet article présente les concepts relatifs à Avamar Capacity Management Concepts et à la formation.
Résolution
Comment les données sont-elles stockées sur la grille Avamar ?
La gestion de la capacité d’Avamar concerne les données qui se trouvent dans les partitions /data* de tous les nœuds de données Avamar.
-
les données de sauvegarde dédupliquées ;
-
les données de parité RAIN ;
-
les données de surcharge des points de contrôle
La parité RAIN et les données de points de contrôle constituent des couches de redondance disponibles pour Avamar en plus du RAID et de la réplication.
De l’espace libre dans les partitions de données est également nécessaire pour que les tâches de maintenance telles que le nettoyage de la mémoire (GC) et le traitement asynchrone des bandes s’exécutent correctement.
Vous trouverez ci-dessous une représentation graphique de l’espace de stockage physique disponible au sein des partitions de données sur les nœuds de stockage Avamar.

Comment les données sont-elles stockées dans les partitions de données ?
Dans le schéma ci-dessus, il existe une représentation simple de la façon dont l’espace est utilisé dans les partitions de données.
La valeur 100 % sur la gauche représente la quantité totale d’espace physique disponible sur le système d’exploitation dans les partitions de données.
-
Le marqueur 100 % de la capacité utilisateur (limite en lecture seule) indique que 65 % de l’espace total de la partition de données est disponible pour le stockage des données dédupliquées.
-
L’espace inférieur à ce marqueur de capacité utilisateur de 100 % est équivalent à la valeur d’utilisation du serveur qui est visible dans l’interface utilisateur de l’administrateur.
Si la quantité de données dédupliquées stockées sur une partition de données d’un nœud atteint 65 %, Avamar passe en lecture seule et refuse d’autres données de sauvegarde.
Sur la base de ce qui précède, on peut comprendre que, à partir de l’interface utilisateur d’Avamar Administrator, l’utilisateur dispose d’une visibilité sur l’espace consommé par les sauvegardes, mais pas sur l’espace consommé dans les partitions de données du système d’exploitation.
Pourquoi un système Avamar ne doit pas être exécuté à l’approche de la limite de « capacité utilisateur » :
La relation entre la « capacité utilisateur » élevée et la surcharge des points de contrôle est telle que, lorsqu’un système est de plus en plus saturé, même une augmentation légère des données de sauvegarde peut augmenter considérablement la surcharge des points de contrôle.
Une discussion complète sur les raisons pour lesquelles c’est le cas dépasse le cadre de cet article, mais la chose importante à retenir est la suivante : Plusun système Avamar est proche de 100 % de la capacité utilisateur, moins la capacité du système d’exploitation disponible pour la surcharge des points de contrôle est importante.
Sur un système complet, conformément au schéma ci-dessus, la surcharge des points de contrôle est limitée à 20 % de l’espace total du système d’exploitation dans les partitions de données.
-
Le système doit disposer d’un faible taux de données modifiées quotidiennes (pas plus de 1 %).
-
La capacité doit être dans un état stable (comme décrit dans la section « Gestion de la capacité » du Guide des pratiques d’excellence opérationnelles d’Avamar (en anglais)). Les guides relatifs à votre environnement d’exploitation sont disponibles ici : Comment accéder à la documentation Avamar sur le site de support Dell.
-
Des tâches de maintenance doivent être exécutées tous les jours.
Si l’une de ces instructions passe de true à false, il se peut que la surcharge des points de contrôle augmente progressivement ou atteigne un pic soudain, ce qui peut provoquer de graves problèmes de fonctionnement.
Facteurs qui contribuent à la surcharge des points de contrôle :
-
Le traitement asynchrone des bandes (activé par défaut).
-
Le nombre de points de contrôle stockés sur le système.
-
La validation des points de contrôle n’a pas été correctement effectuée chaque jour.
-
L’état des bandes vides lorsqu’elles sont réutilisées par le serveur Avamar (ce problème est plus grave en cas d’utilisation plus intense du serveur).
-
Le taux de modification des sauvegardes quotidiennes.
Un administrateur système dispose d’un certain degré de contrôle sur ces facteurs. La configuration du traitement asynchrone est réservée au support uniquement, mais les administrateurs peuvent supprimer les points de contrôle superflus, identifier les défaillances de point de contrôle et influencer l’utilisation du serveur et le taux de modification quotidienne des données.
Comment surveiller l’utilisation de la partition de données :
La bonne façon de surveiller l’utilisation de la partition de données du système d’exploitation consiste à utiliser la commande Avamar suivante à partir d’Avamar Utility Node :
avmaint nodelist | grep fs-percent
Exemple de résultat :
fs-percent-full="7.8"
fs-percent-full="6.3"
fs-percent-full="6.4"
fs-percent-full="6.4"
fs-percent-full="7.6"
fs-percent-full="6.2"
fs-percent-full="6.1"
fs-percent-full="6.6"
fs-percent-full="7.8"
fs-percent-full="6.4"
fs-percent-full="6.5"
fs-percent-full="6.8"
-
-
Cette sortie donne une lecture réelle de l’utilisation de la capacité du système d’exploitation.
-
Dans une grille où les nœuds de données utilisent un pool de fichiers, la commande Linux
dfest inutile, car les bandes sont pré-allouées dans le pool de fichiers, et beaucoup de ces bandes peuvent ne pas être en cours d’utilisation.
-
Que se passe-t-il si l’utilisation de la capacité du système d’exploitation est hors de contrôle ?
Du point de vue de l’utilisateur, la première indication que l’utilisation de la partition de données est hors de contrôle se produit lorsqu’elle dépasse 89 %.
Le nettoyage de la mémoire ne peut plus s’exécuter et échoue avec un MSG_ERR_DISKFULL .
C’est là que les malentendus se produisent souvent : L’utilisateur interprète souvent le message MSG_ERR_DISKFULL signifie que le système n’a plus d’espace pour les sauvegardes.
Cette interprétation n’est pas correcte. Toutefois, l’utilisateur vérifie généralement la valeur d’utilisation du serveur dans l’interface utilisateur d’Avamar Administrator et estime que cette valeur est acceptable, par exemple 60 %.
L’utilisateur peut tenter de supprimer des sauvegardes à partir de l’interface de gestion des sauvegardes de l’interface utilisateur d’Avamar. Même si le niveau de capacité utilisateur était élevé, la suppression des sauvegardes n’atténuerait pas la situation, car le nettoyage de la mémoire ne peut pas s’exécuter et supprimer les fragments de données expirés du système.
Si un système rencontre à la fois un problème de capacité élevée du système d’exploitation et de capacité utilisateur élevée, commencez par résoudre ce problème.
Dans le cas d’une utilisation élevée de la capacité du système d’exploitation, le système peut manquer d’espace pour créer des points de contrôle.
Qu’est-ce qui provoque le message MSG_ERR_DISKFULL ?
-
Validation des points de contrôle (
hfscheck) a échoué à plusieurs reprises. -
Une
hfscheckLes causes premières d’une défaillance sont nombreuses (annulation brutale, défaillance logicielle, etc.). -
Le système est trop saturé et présente un taux de modification quotidienne des données élevé.
-
Le système a besoin de plus de nœuds de données pour gérer le taux de modification des données et stocker les données.
-
Le système est configuré pour sauvegarder plus de données ou de clients que ce que sa taille prévoit.
-
Un trop grand nombre de points de contrôle sont stockés (Avamar stocke deux points de contrôle par défaut, dont l’un d’entre eux a été validé).
-
L’administrateur système a créé un nombre excessif de points de contrôle.
-
La maintenance a récemment été exécutée, mais les conservations de points de contrôle par défaut n’ont pas été rétablies.
Reportez-vous à l’article suivant pour vous aider à résoudre le problème MSG_ERR_DISKFULL Scénario: Avamar : Les tâches de maintenance échouent avec MSG_ERR_DISKFULL en raison de la capacité du système d’exploitation d’une ou plusieurs partitions de données dépassant 89 %
Actions à entreprendre pour examiner et réduire la capacité élevée du système d’exploitation :
1. Déterminez la date de la dernière hfscheck Fini. Cela peut se faire avec Avamar Administrator ou la ligne de commande Avamar Utility Node :
- Dans l’interface utilisateur d’Avamar Java Administrator :
- Accédez à l’onglet Server > Checkpoint Management
- Vérifiez la date et l’heure les plus récentes répertoriées dans la colonne Checkpoint Validation. Cette opération devrait avoir eu lieu au cours des dernières 24 heures.
-- ou --
- À l’aide de la ligne de commande Avamar Utility Node :
- Exécutez la commande :
cplist.
- Exécutez la commande :
admin@utilitynode:~/>: cplist
cp.20110114111419 Fri Jan 14 11:14:19 2011 valid rol --- nodes 3/3 stripes 1131
cp.20110114194457 Fri Jan 14 19:44:57 2011 valid --- --- nodes 3/3 stripes 1131
-
-
-
-
Le point de contrôle validé le plus récent répertorié ici est daté au 14 janvier, à 11 h 14.
-
Il est identifié par le drapeau directement après le marqueur 'valide'.
-
Selon les types de validation de point de contrôle définis sur le système, la balise peut être
rolouhfs. -
Voici un exemple d'
rol(roulant)hfscheck.
-
-
-
Si les résultats indiquent que le dernier point de contrôle validé date de plus de 24 heures, cherchez pourquoi. Cela peut être dû au fait que le HFScheck n’a pas fonctionné ou parce qu’il a échoué.
2. Confirmez si HFScheck RAN ou en cas d’échec :
Sur l’Avamar Utility Node, exécutez la commande status.dpn et recherchez la ligne qui commence par "Last hfscheck ».
Par exemple :
Last hfscheck: finished Sat Jan 15, 11:07:17 2011 after 06m 41s >> checked 528 of 528 stripes (OK)
Notez à quel moment l’opération s’est terminée et son état (dans la ligne au-dessus de l’état, qui affiche « OK »).
HFScheck dernière exécution et si elle a réussi.
si hfscheck Les tâches ont échoué, cela doit être examiné immédiatement.
si hfscheck ne s’est pas exécuté récemment, vérifiez que le planificateur de maintenance est activé en exécutant la commande "dpnctl status maint» sur Avamar Utility Node : .
admin@utilitynode:~/>: dpnctl status maint
Identity added: /home/admin/.ssh/dpnid (/home/admin/.ssh/admin_key)
dpnctl: INFO: Maintenance windows scheduler status: enabled.
- Si le planificateur de fenêtres de maintenance est arrêté, désactivé ou suspendu, activez-le à l’aide de la commande suivante :
dpnctl start maint - Si vous le souhaitez, prenez un nouveau point de contrôle et exécutez
hfscheckou attendez la fin de la prochaine fenêtre de maintenance planifiée.
Une fois qu’un hfscheck s’est terminé avec succès (après la résolution des problèmes ou le redémarrage du planificateur de maintenance), le point de contrôle le plus ancien sera « annulé » et la capacité du système d’exploitation devrait diminuer considérablement.
- Si la capacité du système d’exploitation est encore trop élevée et que le nettoyage de la mémoire continue d’échouer avec le
MSG_ERR_DISKFULL, puis demandez de l’aide à l’équipe de support technique Dell. - Mais, si la capacité du système d’exploitation est assez faible pour permettre l’exécution du nettoyage de la mémoire, essayez de réduire la capacité utilisateur ainsi que la valeur « d’utilisation du serveur ».
Actions pour réduire la capacité utilisateur élevée :
Contrairement à la capacité du système d’exploitation, les niveaux de capacité utilisateur sont plus facilement et directement influencés par l’administrateur système Avamar.
1. Assurez-vous que le nettoyage de la mémoire est exécuté tous les jours et qu’il n’est pas interrompu par des sauvegardes.
C’est le point le plus crucial, car même un système de taille adéquate connaît rapidement une capacité utilisateur élevée si le nettoyage de la mémoire ne s’exécute pas régulièrement ou de manière fiable.
Comme indiqué précédemment, vérifiez que la fenêtre de maintenance est activée et utilisez la commande capacity.sh et sched.sh Scripts permettant de vérifier que le nettoyage de la mémoire est en cours d’exécution et qu’il supprime les données.
Dans les versions antérieures d’Avamar v7.x, les sauvegardes ne pouvaient pas s’exécuter pendant la fenêtre de restriction du nettoyage de la mémoire.
La fonctionnalité Hash Referenced Bit Maps introduite avec la fonctionnalité Avamar v7.x permet d’effectuer des sauvegardes pendant l’activité de maintenance du GC. Cette fonctionnalité nécessite que ces « cartes » disposent d’au moins 5 minutes de temps de silence par jour pendant lesquelles aucune sauvegarde n’est exécutée afin qu’elles puissent être réinitialisées.
Le contenu relatif à cette fonctionnalité est accessible à l’aide du lien vers l’article Avamar : À partir d’Avamar v7, le nettoyage de la mémoire signale des « hachages ignorés » qui ne peuvent pas être nettoyés en raison des « mappages de bits référencés par hachage » lorsque les données sont en cours d’utilisation (en anglais).
2. Arrêtez l’ajout de nouveaux clients à la grille.
Lorsqu’une grille Avamar approche de sa capacité maximale, cessez immédiatement d’ajouter de nouveaux clients pour éviter d’aggraver la situation.
Si une autre grille Avamar s’exécute à un niveau d’utilisation du serveur inférieur, envisagez d’ajouter de nouveaux clients à cette grille au lieu du serveur qui commence à être saturé.
3. Détectez les clients qui consomment la plus grande quantité d’espace de stockage.
Pour résoudre un problème de capacité, identifiez les clients responsables de l’ajout du plus grand nombre de données au système Avamar.
La commande capacity.sh Le script (exécuté à partir de la ligne de commande d’Avamar Utility Node) peut également être utilisé pour identifier les clients présentant le taux de modification le plus élevé.
Voir Avamar : Comment gérer la capacité à l’aide de capacity.sh script pour plus d’infomraiotn sur la façon d’utiliser le capacity.sh Script.
Souvent, les clients les plus « gourmands » sont ceux qui sauvegardent des bases de données SQL ou des serveurs de messagerie, prêtez-y donc une attention particulière.
4. Réévaluez les règles de conservation.
Après avoir identifié les clients dont le taux de modification est élevé, réévaluez les règles de conservation pour voir si vous pouvez en abaisser certaines afin de réduire les besoins de stockage à un niveau acceptable.
Si le système est suffisamment ancien pour avoir commencé à faire expirer les sauvegardes conservées les plus longues, après avoir réduit les politiques de rétention, attendez-vous à voir une augmentation de la quantité de données supprimées chaque jour par le nettoyage de la mémoire. Surveillez cette tendance avec capacity.sh.
Si le système Avamar n’est pas encore assez ancien pour que les sauvegardes expirent, vous devrez peut-être modifier les règles de conservation afin que les sauvegardes les plus anciennes commencent à expirer.
S’il n’est pas possible de réduire les politiques de rétention en raison d’exigences réglementaires, envisagez d’étendre le système Avamar ou de migrer les clients vers un autre Avamar, moins utilisé.
5. Migrez les clients vers un autre système Avamar.
Si un autre système Avamar est disponible, envisagez de migrer les clients dont le taux de modification est volumineux ou élevé à partir de systèmes utilisés intensément vers des systèmes moins sollicités à l’aide de l’interface Avamar Client Manager.
- Le nouveau serveur Avamar nécessite suffisamment d’espace de stockage pour permettre la migration des clients Avamar.
- Conservez les clients dont le type de données est similaire sur le même système Avamar pour tirer parti de l’efficacité de la déduplication.
- Cette stratégie est plus efficace lorsque les systèmes Avamar se trouvent sur le même réseau local.
6. Supprimez les anciennes sauvegardes.
Si le niveau de capacité utilisateur est élevé (>90 %), il peut être nécessaire de faire expirer les anciennes sauvegardes via l’interface de gestion des sauvegardes ou avec modify-snapups .
Les utilisateurs Dell peuvent accéder au contenu à l’aide du lien vers l’article Avamar : Gestion de la capacité : comment supprimer ou faire expirer des sauvegardes en bloc avec le message «modify-snapups" outil
La suppression des sauvegardes ne réduit pas immédiatement le niveau d’utilisation du serveur. Grâce à cette opération, le nettoyage de la mémoire peut démarrer la suppression des données lors de la prochaine exécution du nettoyage de la mémoire. La suppression des anciennes sauvegardes est une solution de contournement à court terme. Les sauvegardes seront remplacées au cours des prochains jours. Si vous supprimez des sauvegardes, il est essentiel d’ajuster des politiques de conservation.
7. Surveiller la modification des données à l’aide de capacity.sh.
Une fois les sauvegardes supprimées et les règles de rétention modifiées, surveillez attentivement la quantité de données modifiées sur le système à l’aide de la capacity.sh Script. La valeur des données « supprimées » doit augmenter et la valeur « Net Change » doit devenir négative. Finalement, à mesure que les données excédentaires sont supprimées du système, la valeur « Removed » commence à revenir à des niveaux plus normaux. Continuez à surveiller la valeur « Removed ».
Si la valeur de modification nette ne devient pas négative, vérifiez le journal GC pour voir combien de temps dure le nettoyage de la mémoire et combien de travail il accomplit dans la fenêtre de maintenance.
Voir Avamar : Comment gérer la capacité à l’aide de capacity.sh pour plus d’informations sur l’utilisation de l’attribut capacity.sh Script.
8. Développez le système Avamar :
Souvent, le taux d’utilisation élevé de la grille Avamar est dû à une prolifération naturelle et attendue des données. Davantage d’espace doit être disponible pour poursuivre les sauvegardes de production.
-
Les grilles à nœud unique et Avamar Virtual Edition (AVE) :
- Ces systèmes ne peuvent pas être étendus. Commandez un deuxième système Avamar, plus grand, et demandez aux services professionnels de Dell d’effectuer une migration de système, du plus petit vers le plus grand.
- Vous pouvez contacter les services professionnels par l’intermédiaire du responsable de compte Dell.
- Le nouveau système peut être un système à nœud unique, un système AVE ou un système à plusieurs nœuds, s’il fournit plus d’espace de stockage que la source.
- Ces systèmes ne peuvent pas être étendus. Commandez un deuxième système Avamar, plus grand, et demandez aux services professionnels de Dell d’effectuer une migration de système, du plus petit vers le plus grand.
-
Grilles à plusieurs nœuds :
- Ces systèmes peuvent être étendus jusqu’à 16 nœuds de données.
- Contactez le responsable de compte Dell pour plus d’informations (les canaux de support habituels n’effectuent pas d’ajouts de nœuds, par conséquent, aucune demande de service ne doit être ouverte pour demander ce travail.)
- Ces systèmes peuvent être étendus jusqu’à 16 nœuds de données.
-
Intégrer Data Domain :
-
L’intégration d’un système Data Domain en tant que périphérique de stockage back-end est un moyen utile pour étendre la capacité disponible pour les clients qui sauvegardent sur Avamar.
-
Discutez des options avec votre responsable de compte Dell.
-
-
Informations supplémentaires
Outils utiles
status.dpncapacity.shAvalancheDPN Summary Reportreplcnt.sh- Avamar Client Manager
Meilleure pratiques :
-
Essayez d’éviter que la valeur d’utilisation (capacité utilisateur) d’Avamar Server dépasse 80 %.
-
Une capacité utilisateur inférieure fournit une résilience contre les modifications inattendues au niveau de la quantité de données ajoutées et peut apporter une protection contre le système qui devient inutilisable en cas de défaillances inattendues ou de problèmes à court terme au niveau des tâches de maintenance.
-
Un système Avamar fonctionnant avec une capacité utilisateur supérieure à 80 % nécessite une surveillance plus poussée par l’administrateur système pour garantir que les tâches de maintenance se déroulent correctement et que le système ne passe pas en lecture seule.