Avamar : Capacité du système d’exploitation (SE) (chemin de résolution)
Summary: Cet article de résolution concerne la gestion ou le dépannage des problèmes de capacité du système d’exploitation (OS) sur Avamar.
Symptoms
Gérer ou résoudre les problèmes de capacité du système d’exploitation sur Avamar.
Cet article de résolution est conçu pour traiter ou résoudre les problèmes de capacité du système d’exploitation sur Avamar.
Pour connaître les concepts initiaux et comprendre la capacité du système d’exploitation, reportez-vous à l’article de formation Avamar : Concepts et formation
en matière de gestion des capacitésComme indiqué dans l’article de formation, une compréhension raisonnable des rubriques suivantes est requise pour poursuivre la suite de cet article :
- Une compréhension de base des points de contrôle (CP), de la validation des points de contrôle (
hfscheck)et le nettoyage de la mémoire (GC), ainsi que l’importance de chaque - La différence entre
GSAN(également appelée « capacité utilisateur » et capacité du système d’exploitation) - les données de surcharge des points de contrôle
- Si l’une des partitions de données représente plus de 89 % de l’espace de capacité physique totale du système d’exploitation, le nettoyage de la mémoire ne peut pas s’exécuter.
- Plus une grille Avamar est proche de 100 % de la capacité utilisateur, moins il y a de capacité de système d’exploitation disponible pour la surcharge des points de contrôle.
- Les facteurs qui contribuent à la surcharge des points de contrôle, y compris le traitement asynchrone, le nombre de points de contrôle stockés,
HFSChecket l’importance de la validation des points de contrôle, et ainsi de suite. - Comment trouver les niveaux de capacité du système d’exploitation
- Actions de base pour alléger la capacité du système d’exploitation
Il est souvent plus facile de considérer la capacité du système d’exploitation comme la taille du GSAN (plus précisément l’espace alloué à ces données) et la surcharge générée par les points de contrôle Avamar. Plus le nombre de points de contrôle et le taux de modification sont élevés, plus la surcharge du point de contrôle est élevée.
Les impacts d’une capacité élevée du système d’exploitation peuvent inclure les éléments suivants :
- Échec du nettoyage de la mémoire : GC échoue avec MSG_ERR_DISKFULL si la capacité du système d’exploitation dépasse 89 %
- Échec de la sauvegarde ou de la réplication : Les sauvegardes ou la réplication entrante peuvent échouer avec MSG_ERR_STRIPECREATE si la capacité du système d’exploitation dépasse 90 %. (Ceci uniquement si une nouvelle bande de données doit être créée. Si une nouvelle bande n’est pas nécessaire, les sauvegardes et la réplication peuvent toujours s’exécuter correctement.)
- Échec du point de contrôle : Un point de contrôle échoue avec MSG_ERR_DISKFULL si la capacité du système d’exploitation dépasse 96 %
Comme indiqué ci-dessus, la capacité du système d’exploitation est souvent le premier type de capacité Avamar à traiter lorsque les autres capacités Avamar sont également élevées. Au minimum, le nettoyage de la mémoire ne peut pas être exécuté lorsque la capacité du système d’exploitation atteint certains niveaux, même lorsque GSAN ou la capacité utilisateur est également élevée.
En règle générale, la capacité du système d’exploitation est considérée comme élevée lorsque le GC échoue avec MSG_ERR_DISKFULL si la capacité du système d’exploitation dépasse 89 %. Si la capacité du système d’exploitation est inférieure à 89 %, aucune tâche de maintenance n’est affectée.
Cause
La capacité du système d’exploitation Avamar peut augmenter pour n’importe quelle combinaison des raisons suivantes :
- Taux de modification élevé des données de sauvegarde, ajout de « trop trop rapide »
- Élevé
GSANou « User Capacity » qui laisse moins de place pour la capacité du système d’exploitation et peut parfois même entraîner des taux de modification plus élevés - Le point de contrôle ne s’est pas terminé correctement, ce qui entraîne l’état « MSG_ERR_DISKFULL » comme indiqué dans la sortie.
- Une validation de point de contrôle (
hfscheck)a échoué ou n’a pas été exécuté récemment, de sorte que les points de contrôle les plus anciens ne peuvent pas annuler ou être supprimés - Les points de contrôle ne sont pas supprimés pour d’autres raisons, notamment des paramètres de rétention des points de contrôle trop élevés
Une capacité élevée du système d’exploitation sur d’autres partitions de disque peut provenir de diverses causes, notamment un placement incorrect des données, des fichiers log devenus trop volumineux, etc.
- Pour un arrière-plan rapide, les points de contrôle Avamar sont un snapshot en lecture seule et un lien vers les données en direct. Étant donné qu’il est créé avec des liens, un point de contrôle n’utilisera aucun espace disque supplémentaire immédiatement après sa création. Si aucune modification n’est apportée aux données en direct, le point de contrôle n’utilise pas d’espace supplémentaire.
- Cela change à mesure que les données dynamiques sont modifiées tandis que le point de contrôle reste le même. À ce stade, il existe une copie d’origine des données dans le point de contrôle et la Live Copy mise à jour des données modifiées. C’est tout à fait intentionnel. C’est la raison pour laquelle il existe un espace réservé à la capacité du système d’exploitation.
- Toutefois, si la quantité ou le taux de modification des données augmente considérablement et soudainement, cela peut provoquer un pic inhabituel dans la taille de la capacité du système d’exploitation et être considéré comme « trop, trop rapide »
- La commande
capacity.shindique que cela est la cause lors de la comparaison de la sortie sur plusieurs jours.
Resolution
Si les tâches de maintenance, y compris le nettoyage de la mémoire, échouent à cause d’une capacité élevée du système d’exploitation Avamar, procédez comme suit :
1. Rassemblez toutes les informations sur la capacité Avamar pour brosser un tableau de la situation : Avamar : Comment collecter les informations nécessaires au dépannage des problèmes de capacité.
2. Examinez ensuite la capacité du système d’exploitation et les actions requises. À partir de l’article sur la collecte de données, vous pouvez le trouver à l’aide de la commande suivante :
avmaint nodelist | egrep 'nodetag|fs-percent-full'
Le fonctionnement d’Avamar est le suivant : la valeur la PLUS ÉLEVÉE indiquée pour fs-percent-full est le facteur limitatif de la capacité actuelle du système d’exploitation. En fonction de la génération et de la taille du type de nœud, le nombre de partitions de données stockant les données de sauvegarde et de point de contrôle peut varier. Comme le montre le système d’exploitation Linux, il peut s’agir de disques ou de partitions comme « /data0* », où « * » peut être un seul chiffre. Le nombre de partitions de données dépend du type de nœud, de la génération de matériel et de la taille (et ne peut pas être modifié).
3. Vérifiez le nombre de points de contrôle trouvés et la date à laquelle ils ont été validés à partir de la commande :
cplist
cp.20290310080041 Mon Mar 10 08:00:41 2025 valid rol --- nodes 4/4 stripes 5980
cp.20290310080649 Mon Mar 10 08:06:49 2025 valid --- --- nodes 4/4 stripes 5980
4. Vérifiez si les opérations de point de contrôle échouent à partir de « MSG_ERR_DISKFULL » en exécutant la commande suivante :
dumpmaintlogs --types=cp --days=4 | grep "\<430"
Si les points de contrôle ont été exécutés avec succès, un résultat similaire à ce qui suit s’affiche :
2020/03/07-08:00:39.51323 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/07-08:01:31.49490 {0.0} <4301> completed checkpoint maintenance
2020/03/07-08:07:47.36128 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/07-08:08:29.40139 {0.0} <4301> completed checkpoint maintenance
2020/03/08-08:00:39.93332 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/08-08:01:29.50546 {0.0} <4301> completed checkpoint maintenance
2020/03/08-08:06:45.37918 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/08-08:07:27.36749 {0.0} <4301> completed checkpoint maintenance
2020/03/09-08:00:36.57433 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/09-08:01:24.22214 {0.0} <4301> completed checkpoint maintenance
2020/03/09-08:06:40.52884 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/09-08:07:22.18463 {0.0} <4301> completed checkpoint maintenance
2020/03/10-08:00:39.83562 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/10-08:01:31.87814 {0.0} <4301> completed checkpoint maintenance
2020/03/10-08:06:48.27867 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/10-08:07:29.95640 {0.0} <4301> completed checkpoint maintenance
En cas d’échec en raison d’une MSG_ERR_DISKFULL, la sortie suivante s’affiche :
2020/03/07-08:00:39.51323 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/07-08:01:31.49490 {0.0} <4301> failed checkpoint maintenance with error MSG_ERR_DISKFULL
2020/03/07-08:07:47.36128 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/07-08:08:29.40139 {0.0} <4301> completed checkpoint maintenance
2020/03/08-08:00:39.93332 {0.0} <4300> failed checkpoint maintenance with error MSG_ERR_DISKFULL
2020/03/08-08:01:29.50546 {0.0} <4301> completed checkpoint maintenance
2020/03/08-08:06:45.37918 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/08-08:07:27.36749 {0.0} <4301> completed checkpoint maintenance
2020/03/09-08:00:36.57433 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/09-08:01:24.22214 {0.0} <4301> completed checkpoint maintenance
2020/03/09-08:06:40.52884 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/09-08:07:22.18463 {0.0} <4301> completed checkpoint maintenance
2020/03/10-08:00:39.83562 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/10-08:01:31.87814 {0.0} <4301> completed checkpoint maintenance
2020/03/10-08:06:48.27867 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/10-08:07:29.95640 {0.0} <4301> completed checkpoint maintenance
cplist command Indique le nombre de points de contrôle trouvés et la date à laquelle un point de contrôle a été validé. Comme indiqué dans l’article sur la collecte de données, utilisez Avamar : comment comprendre le résultat généré par la commande cplist pour comprendre le cplist sortie.
Il doit y avoir deux ou trois points de contrôle, et au moins l’un des points de contrôle des dernières 24 heures s’affiche comme validé avec
hfscheck. Il s’agit d’un comportement normal résultant de toutes les tâches exécutées avec succès et des paramètres de rétention des points de contrôle normaux.
S’il existe plus de trois points de contrôle ou qu’aucun point de contrôle n’a été validé au cours des dernières 24 heures, vous devez d’abord traiter ce problème, car il peut s’agir du seul moyen de réduire la capacité du système d’exploitation. Si cela se produit, ouvrez une demande de service auprès de Dell Technologies, sinon continuez à partir de l’étape 6.
6. Déterminez le taux de changement :
capacity.sh
Exemple de résultat :
DATE AVAMAR NEW #BU SCANNED REMOVED MINS PASS AVAMAR NET CHG RATE
========== ============= ==== ============= ============= ==== ==== ============= ==========
2020-02-25 1066 mb 8 302746 mb -641 mb 0 23 425 mb 0.35%
2020-02-26 1708 mb 8 303063 mb -518 mb 0 23 1189 mb 0.56%
2020-02-27 3592 mb 8 304360 mb -413 mb 0 23 3178 mb 1.18%
2020-02-28 1086 mb 8 304892 mb -372 mb 0 23 713 mb 0.36%
2020-03-01 1002 mb 8 305007 mb -7469 mb 0 25 -6467 mb 0.33%
2020-03-02 585 mb 7 197874 mb 0 mb 0 9 585 mb 0.30%
2020-03-03 348 mb 7 199305 mb 0 mb 0 10 348 mb 0.17%
2020-03-04 775 mb 7 198834 mb -2 mb 0 10 773 mb 0.39%
2020-03-05 380 mb 4 196394 mb -5 mb 0 10 375 mb 0.19%
2020-03-06 1068 mb 4 159960 mb 0 mb 0 9 1067 mb 0.67%
2020-03-07 443 mb 4 197132 mb -18 mb 0 17 424 mb 0.23%
2020-03-08 348 mb 4 197231 mb -48 mb 0 20 300 mb 0.18%
2020-03-09 370 mb 4 196506 mb 0 mb 0 9 370 mb 0.19%
2020-03-10 349 mb 4 197292 mb -17 mb 0 20 332 mb 0.18%
2020-03-11 974 mb 2 77159 mb 0 mb 0 0 974 mb 1.26%
=============================================================================================
14 DAY AVG 940 mb 5 222517 mb -634 mb 0 15 306 mb 0.42%
30 DAY AVG 1121 mb 5 195658 mb -771 mb 0 14 349 mb 0.59%
60 DAY AVG 994 mb 4 128657 mb -1165 mb 0 17 -170 mb 0.98%
Top Change Rate Clients. Total Data Added 14103mb
NEW DATA % OF TOTAL CHGRATE TYPE CLIENT
============= ========== ======= ====
6803 mb 48.24 0.91% AVA /Windows/testing/Hyper-V/hyperv1
3218 mb 22.82 0.61% AVA /clients/exchange1
2932 mb 20.80 0.44% AVA /BMR/server1
983 mb 6.97 0.10% AVA /Windows/testing/SQL/sql1
97 mb 0.69 1.13% AVA /REPLICATE/grid2.company.com/MC_BACKUPS
Parfois, si le taux de changement élevé ou la situation « trop, trop vite » se reproduit, cela peut être atténué en diminuant le taux de change global. GSAN ou la capacité de l’utilisateur. Avec un prix inférieur GSAN , il y a un peu plus de place pour la surcharge de capacité du système d’exploitation et entraîne également moins de modifications du conteneur de stockage de données. Pour obtenir de l’aide sur ce scénario, ouvrez une demande de service auprès de l’équipe de support Dell Technologies Avamar. Sinon, poursuivez à partir de l’étape 7.
7. Les problèmes liés aux capacités élevées du système d’exploitation sur d’autres partitions de disque ont diverses causes, mais les solutions nécessitent un support technique. Ouvrez une demande de service auprès de l’équipe de support Dell Technologies Avamar, sinon poursuivez à partir de l’étape 7.
Une fois la capacité du système d’exploitation traitée, GSAN ou d’autres capacités d’Avamar peuvent être examinées. Consultez la section Dépannage, problèmes et questions relatifs à la capacité d’Avamar - Toute la capacité (chemin de résolution)