Data Domain : comment résoudre les problèmes liés à un fort taux d’utilisation de l’espace ou à un manque de capacité disponible sur des Data Domain Restorers (DDR)

Сводка: Cet article contient une procédure pas à pas qui vous aide à résoudre les problèmes liés à un fort taux d’utilisation de l’espace ou à un manque de capacité disponible sur des Data Domain Restorers (DDR) ...

Данная статья применяется к Данная статья не применяется к Эта статья не привязана к какому-либо конкретному продукту. В этой статье указаны не все версии продуктов.

Симптомы

 
Tous les Data Domain Restorers (DDR) contiennent un pool/une zone de stockage appelé(e) « niveau actif » :
  • Il s’agit de la zone du disque où se trouvent les fichiers/données récemment ingérés qui, sur la plupart des fichiers DDR, y demeurent tant qu’une application de sauvegarde client n’a pas forcé leur expiration/suppression.
  • Sur des DDR configurés en mode ER (Extended Retention) ou en mode LTR (Long Term Retention), le processus de déplacement des données peut s’exécuter à intervalles réguliers afin de migrer les anciens fichiers du niveau actif vers les niveaux d’archivage ou Cloud.
  • Le processus de nettoyage de la mémoire est ma seule façon de récupérer de l’espace dans le niveau actif qui a été utilisé par des fichiers supprimés/migrés.
Pour connaître l’utilisation actuelle du niveau actif, vous pouvez utiliser les commandes « filesys show space » ou « df » :
 
# df

Active Tier:
Resource           Size GiB   Used GiB   Avail GiB   Use%   Cleanable GiB*
----------------   --------   --------   ---------   ----   --------------
/data: pre-comp           -    33098.9           -      -                -
/data: post-comp    65460.3      518.7     64941.6     1%              0.0
/ddvar                 29.5       19.7         8.3    70%                -
/ddvar/core            31.5        0.2        29.7     1%                -
----------------   --------   --------   ---------   ----   --------------

Notez que, si le paramètre est configuré, les détails des niveaux d’archivage/Cloud s’affichent sous le niveau actif.

L’utilisation du niveau actif doit être gérée avec précaution afin d’éviter les situations suivantes :
  • Le niveau actif peut commencer à manquer d’espace disponible, ce qui entraîne des alertes/messages du type :
EVT-SPACE-00004 : Space usage in Data Collection has exceeded 95% threshold.
  • Si le niveau actif est utilisé à 100 %, aucune nouvelle donnée ne pourra être écrite sur le DDR, ce qui peut entraîner un échec des sauvegardes/réplications. Dans ce cas de figure, vous pouvez rencontrer ce type d’alerte/message :
CRITICAL: MSG-CM-00002 : /../vpart:/vol1/col1/cp1/cset: Container set [container set ID] out of space
  • Dans certains cas, la saturation du niveau actif peut faire basculer le système de fichiers Data Domain (DDFS) en lecture seule, auquel cas il n’est plus possible de supprimer les fichiers existants.
Cet article de la base de connaissances tente :
  • d’expliquer la raison pour laquelle le niveau actif peut être saturé ;
  • de décrire un ensemble de vérifications simples que vous pouvez effectuer pour déterminer la raison pour laquelle le niveau actif atteint un niveau d’utilisation élevé et effectuer les étapes correctives correspondantes.
Remarque :
  • Cet article n’est pas exhaustif (par exemple, dans certaines rares situations, le niveau actif d’un DDR peut atteindre un taux d’utilisation élevé ou être saturé pour une raison qui n’est pas évoquée dans ce document), mais il a été rédigé de manière à couvrir les causes ou problèmes les plus courants.
  • Cet article ne traite pas du problème de taux d’utilisation élevé des niveaux d’archivage ou Cloud.

Причина

 



 
Le niveau actif d’un DDR peut atteindre un taux d’utilisation supérieur au niveau prévu pour plusieurs raisons :
  • Problème d’expiration/suppression des fichiers/savesets de sauvegarde par les applications de sauvegarde client en raison d’une règle de conservation ou d’une configuration d’application de sauvegarde incorrecte
  • Latence de réplication entraînant la conservation d’une grande quantité de données anciennes sur le niveau actif en attente de réplication sur les réplicas
  • Les données écrites sur le niveau actif présentent un taux de compression global inférieur à celui prévu
  • Le système n’a pas été correctement dimensionné : il est tout simplement trop petit au vu de la quantité de données que l’on tente d’y stocker
  • Les sauvegardes sont composées d’un grand nombre de fichiers très petits : ces fichiers consomment beaucoup plus d’espace que prévu lors de l’écriture initiale, mais cet espace doit être récupéré lors de l’opération de nettoyage de la mémoire
  • Le déplacement des données n’est pas exécuté régulièrement sur les systèmes configurés avec ER/LTR. De ce fait, les anciens fichiers qui sont supposés être déplacés vers les niveaux archive/cloud demeurent sur le niveau actif.
  • Exécution irrégulière du nettoyage de la mémoire
  • Le DDR contient trop de snapshots ou d’anciens snapshots mtree, ce qui empêche de récupérer de l’espace à partir des fichiers/données supprimés

Разрешение

Étape 1 : déterminer si un nettoyage du niveau actif doit être effectué

Le système d’exploitation Data Domain (DDOS) tente de gérer un compteur appelé « Cleanable GiB » pour le niveau actif. Il s’agit d’une estimation de la quantité d’espace physique (post-comp) susceptible d’être récupérée dans le niveau actif lors d’un nettoyage de la mémoire. Ce compteur est affiché par les commandes « filesys show space'/'df » :
 
Active Tier:
Resource           Size GiB    Used GiB   Avail GiB   Use%   Cleanable GiB*
----------------   --------   ---------   ---------   ----   --------------
/data: pre-comp           -   7259347.5           -      -                -
/data: post-comp   304690.8    251252.4     53438.5    82%           51616.1 <=== NOTE
/ddvar                 29.5        12.5        15.6    44%                -
----------------   --------   ---------   ---------   ----   --------------

Si l’une ou l’autre des conditions suivantes sont réunies :
  • la valeur du paramètre « Cleanable GiB » est élevée
  • DDFS atteint un taux de 100 % (et passe donc en lecture seule)
L’opération de suppression doit être exécutée avant de passer à la suite des étapes décrites dans ce document. Pour démarrer le nettoyage, vous devez utiliser la commande « filesys clean start », à savoir :
 
# filesys clean start
Cleaning started.  Utilisez la commande « filesys clean watch » pour surveiller la progression.

Pour confirmer que l’opération de nettoyage a démarré comme prévu, vous pouvez utiliser la commande « filesys status », comme suit :
 
# filesys status
The filesystem is enabled and running.
Cleaning started at 2017/05/19 18:05:58: phase 1 of 12 (pre-merge)
 50.6% complete, 64942 GiB free; time: phase  0:01:05, total  0:01:05

Remarque :
  • Si le système ne parvient pas à démarrer, veuillez contacter votre fournisseur de support pour obtenir de l’aide. Cela peut indiquer que le système a rencontré une erreur de segment manquant, qui entraîne la désactivation du nettoyage.
  • Si le nettoyage est déjà en cours d’exécution, le message suivant s’affiche lors de la tentative de démarrage :
**** Cleaning already in progress.  Utilisez la commande « filesys clean watch » pour surveiller la progression.
  • Aucun espace dans le niveau actif ne sera libéré/récupéré tant que l’opération de nettoyage n’aura pas atteint sa phase de copie (par défaut, la phase 9 dans DDOS versions 5.4.x et antérieures, et la phase 11 dans DDOS versions 5.5.x et supérieures). Pour plus d’informations sur les phases utilisées par l’opération de nettoyage, reportez-vous à l’article suivant : https://support.emc.com/kb/446734
  • L’opération de nettoyage ne permet pas de récupérer la quantité d’espace indiquée par le paramètre « Cleanable GiB », car cette valeur est essentiellement une estimation. Pour plus d’informations, reportez-vous à l’article suivant : https://support.emc.com/kb/485637
  • L’opération de nettoyage peut ne pas récupérer tout l’espace potentiel en une seule exécution car sur les DDR contenant des jeux de données très volumineux, elle ne fonctionne que sur la partie du système de fichiers qui contient les données les plus inutiles (par exemple, pour donner un retour optimal d’espace libre compte tenu du temps nécessaire à l’exécution de l’opération de nettoyage). Dans certains cas, il peut être nécessaire d’exécuter plusieurs fois l’opération de nettoyage pour pouvoir récupérer tous les espaces potentiels.
  • Si la valeur du paramètre « Cleanable GiB » est particulièrement élevée, cela peut indiquer que l’opération de nettoyage ne s’exécute pas à intervalles réguliers. Dans ce cas, vérifiez qu’une planification du nettoyage a bien été définie :
# filesys clean show schedule

Si nécessaire, définissez une planification du nettoyage du niveau actif : par exemple, pour qu’elle s’exécute tous les mardis à 6 h 00 :

# filesys clean set schedule Tue 0600
Le nettoyage du système de fichiers est planifié pour s’exécuter le mardi à 6 h00.


Notez que sur les systèmes configurés avec un nettoyage ER (Extended Retention), le système peut être configuré pour s’exécuter après le déplacement des données et il est possible qu’il ne réponde pas à une planification distincte. Ce scénario est décrit dans la suite du présent document.

Une fois l’opération de nettoyage terminée, utilisez les commandes « filesys show space'/'df » pour déterminer si les problèmes d’utilisation ont été résolus. Si le taux d’utilisation est toujours élevé, passez aux étapes suivantes de cet article.

Étape 2 : rechercher des hauts niveaux de latence de réplication par rapport aux contextes de réplication source

La réplication native de Data Domain est conçue autour du concept de « contextes de réplication ». Par exemple, lorsque des données doivent être répliquées entre différents systèmes :
  • Des contextes de réplication sont créés sur les DDR source et cible
  • Les contextes sont initialisés
  • Une fois l’initialisation est terminée, la réplication envoie régulièrement des mises à jour/deltas de la source vers la destination pour continuer de synchroniser les données sur les systèmes
Si un contexte de réplication source subit une latence, les anciennes données peuvent être conservées sur le disque du système source (notez que les contextes de réplication qui subissent une latence ne peuvent pas entraîner une utilisation excessive sur le système de destination) :
  • Contextes de réplication de répertoire (utilisés lors de la réplication d’une arborescence de répertoires sous /data/col1/backup entre les systèmes) :
La réplication de répertoire utilise un log de réplication sur le DDR source pour effectuer un suivi des fichiers qui n’ont pas encore été répliqués vers la destination
Si un contexte de réplication de répertoire subit une latence, le suivi effectué par le log de réplication sur le DDR source portera sur un grand nombre de fichiers en attente de réplication.
Même si ces fichiers sont supprimés et bien qu’ils continuent d’être référencés par le log de réplication, l’opération de nettoyage ne pourra pas récupérer l’espace sur le disque utilisé par ces fichiers.
  •  Contextes de réplication de mtree (utilisés lors de la réplication d’une mtree autre que /data/col1/backup entre les systèmes) :
La réplication de mtree utilise des snapshots créés sur les systèmes source et de destination afin de déterminer les différences entre les systèmes et, par conséquent, les fichiers qui doivent être envoyés de la source vers la destination
Si un contexte de réplication mtree subit une latence, il peut arriver que des snapshots très anciens soient créés pour la mtree correspondante sur les systèmes source et de destination.
Même si les fichiers proviennent de la mtree répliquée sur le système source et que ces fichiers existaient bel et bien lors de la création des snapshots de réplication de mtree sur le système, l’opération de nettoyage ne pourra pas récupérer l’espace sur le disque utilisé par ces fichiers
  • Contextes de réplication de collecte (utilisés lors de la réplication de l’intégralité du contenu d’un DDR sur un autre système) :
La réplication de collecte effectue une réplication « en mode bloc » de toutes les données d’un système source vers un système de destination
Si une réplication de collecte subit une latence, le nettoyage sur le système source ne peut pas fonctionner de manière optimale. Dans ce scénario, une alerte est générée sur la source pour indiquer qu’une opération de nettoyage partiel est en cours afin d’éviter d’utiliser une synchronisation avec le système de destination.
Il est donc impossible de récupérer autant d’espace que prévu sur le DDR source

 Pour déterminer si les contextes de réplication subissent une latence, procédez de la manière suivante :
  • Déterminez le nom d’hôte du système actuel :
sysadmin@dd4200# hostname
Le nom d’hôte est : dd4200.ddsupport.emea
  • Déterminez la date et l’heure sur le système actuel :
sysadmin@dd4200# date
Fri May 19 19:04:06 IST 2017
  • Répertoriez les contextes de réplication configurés sur le système, ainsi que leur heure de synchronisation. Notez que les contextes qui présentent un intérêt correspondent à ceux où la « destination » ne contient PAS le nom d’hôte du système actuel (ce qui indique que le système actuel est la source) et où l’heure de synchronisation est très ancienne :
sysadmin@dd4200# replication status
CTX   Destination                                                                          Enabled   Connection     Sync’ed-as-of-time   Tenant-Unit
---   ----------------------------------------------------------------------------------   -------   ------------   ------------------   -----------    
3     mtree://dd4200.ddsupport.emea/data/col1/DFC                                          no        idle           Thu Jan 8 08:58     -   <=== NOT INTERESTING  - CURRENT SYSTEM IS THE DESTINATION
9     mtree://BenDDVE.ddsupport.emea/data/col1/BenMtree                                    no        idle           Mon Jan 25 14:48     -   <=== INTERESTING - LAGGING AND CURRENT SYSTEM IS THE SOURCE
13    dir://DD2500-1.ddsupport.emea/backup/dstfolder                                       no        disconnected   Thu Mar 30 17:55     -   <=== INTERESTING - LAGGING AND CURRENT SYSTEM IS THE SOURCE
17    mtree://DD2500-1.ddsupport.emea/data/col1/oleary                                     yes       idle           Fri May 19 18:57     -   <=== NOT INTERESTING - CONTEXT IS UP TO DATE   
18    mtree://dd4200.ddsupport.emea/data/col1/testfast                                     yes       idle           Fri May 19 19:18     -   <=== NOT INTERESTING - CONTEXT IS UP TO DATE
---   ----------------------------------------------------------------------------------   -------   ------------   ------------------   -----------

Les contextes pour lesquels le système actuel correspond à la source et qui indiquent une latence importante, ou les contextes qui ne sont plus nécessaires doivent être rompus. Pour cela, vous pouvez exécuter la commande suivante sur le système source et sur le système de destination :
 
# replication break [destination]

Par exemple, pour rompre les contextes « intéressants » illustrés ci-dessus, les commandes suivantes sont exécutées sur la source et la destination :
 
(dd4200.ddsupport.emea): # replication break mtree://BenDDVE.ddsupport.emea/data/col1/BenMtree
(BenDDVE.ddsupport.emea): # replication break mtree://BenDDVE.ddsupport.emea/data/col1/BenMtree

 
(dd4200.ddsupport.emea): # replication break dir://DD2500-1.ddsupport.emea/backup/dstfolder
(DD2500-1.ddsupport.emea): # replication break dir://DD2500-1.ddsupport.emea/backup/dstfolder

Remarque :
  • Une fois que les contextes sont rompus, l’opération de nettoyage du niveau actif doit être effectuée pour récupérer l’espace potentiel dans le niveau actif.
  • Si vous utilisez une réplication de mtree après avoir rompu des contextes, il peut arriver qu’il reste des snapshots de réplication de mtree sur le disque. Veillez à suivre l’étape 5 pour faire expirer tous les snapshots inutiles avant d’exécuter l’opération de nettoyage.
  • Si la mtree source/de destination est configurée pour migrer des données vers les niveaux d’archivage ou cloud, vous devez prendre des précautions lorsque vous rompez les contextes de réplication de mtree correspondants, car il est possible que ces contextes ne puissent pas être recréés/réinitialisés par la suite. En effet, lorsqu’un contexte de réplication de mtree est initialisé, un snapshot de mtree est créé sur le système source avec des informations détaillées sur tous les fichiers de la mtree (quel que soit le niveau). Ce snapshot est ensuite répliqué intégralement vers le niveau actif de la destination. Par conséquent, si le niveau actif de la destination ne dispose pas de suffisamment d’espace libre pour acquérir toutes les données de mtree à partir de la source, il sera impossible d’effectuer l’initialisation. Pour plus d’informations sur ce problème, veuillez contacter votre fournisseur de services de support.
  • En cas de rupture d’un contexte de réplication de collecte, le contexte ne pourra pas être recréé/réinitialisé sans détruire au préalable l’instance de DDFS sur le DDR de destination (ce qui entraîne la perte de toutes les données sur ce système). Une initialisation ultérieure peut donc consommer énormément de temps ou de bande passante réseau, car toutes les données de la source doivent être répliquées physiquement vers la destination.
Étape 3 : rechercher les mtree qui ne sont plus nécessaires

Le contenu de DDFS est divisé logiquement en structures mtree. Les applications/clients de sauvegarde individuels écrivent souvent dans des mtrees individuelles. Si une application de sauvegarde est mise hors service, elle ne sera plus en mesure d’écrire ou de supprimer des données sur le DDR. D’anciennes mtrees ou des mtrees inutiles peuvent donc demeurer sur le système. Les données de ces mtrees continuent d’exister indéfiniment et d’utiliser de l’espace disque sur le DDR. Par conséquent, toutes les mtree inutiles doivent être supprimées. Par exemple :
  • Pour obtenir la liste des structures mtree sur le système :
# mtree list
Name                                                            Pre-Comp (GiB)   Status 
-------------------------------------------------------------   --------------   -------
/data/col1/Budu_test                                                     147.0   RW     
/data/col1/Default                                                      8649.8   RW     
/data/col1/File_DayForward_Noida                                          42.0   RW/RLCE
/data/col1/labtest                                                      1462.7   RW     
/data/col1/oscar_data                                                      0.2   RW     
/data/col1/test_oscar_2                                                  494.0   RO/RD     
-------------------------------------------------------------   --------------   -------
  • Toutes les mtrees qui ne sont plus nécessaires doivent être supprimées à l’aide de la commande « mtree delete », c’est-à-dire :
# mtree delete [nom de la mtree]

Par exemple :

# mtree delete /data/col1/Budu_test
...
MTree "/data/col1/Budu_test" deleted successfully.
  • L’espace consommé sur le disque par la mtree supprimée sera récupéré lors de l’exécution de la prochaine opération de nettoyage de la mémoire du niveau actif.
Remarque :
  • Pour les structures mtree qui servent de destinations pour la réplication de mtrees (par exemple, qui sont à l’état RO/RD dans la sortie de la liste des mtrees), le contexte de réplication correspondant doit être rompu avant la suppression de la mtree
  • Les mtrees qui sont utilisées comme unités de stockage logiques (LSU) DDBoost ou comme pools de bibliothèques de bandes virtuelles (VTL) peuvent ne pas être supprimées à l’aide de la commande « mtree delete » : reportez-vous au Guide d’administration de Data Domain pour plus d’informations sur la suppression de ces mtrees
  • Les structures mtree qui sont configurées avec un verrou de conservation (par exemple, qui sont à l’état RLCE ou RLGE) ne peuvent pas être supprimées. Dans ce cas, vous devez annuler les verrous de conservation au niveau des fichiers de la mtree, puis supprimer ces derniers individuellement. Pour plus d’informations, reportez-vous au Guide d’administration de Data Domain
Étape 4 : rechercher les snapshots de mtree anciens/inutiles

Un snapshot Data Domain représente un snapshot à un point dans le temps de la mtree correspondante. Par conséquent :
  • Tous les fichiers existant au niveau de la mtree lors de la création du snapshot sont référencés par le snapshot.
  • Bien que le snapshot demeure même si ces fichiers sont retirés/supprimés, l’opération de nettoyage ne permettra pas de récupérer l’espace physique qu’il utilise sur le disque, car les données doivent rester sur le système au cas où l’on souhaiterait accéder ultérieurement à la copie du fichier contenu dans le snapshot.
Pour déterminer si des mtrees contiennent d’anciens snapshots ou des snapshots inutiles, procédez de la manière suivante :
  • Récupérez la liste des structures mtree sur le système à l’aide de la commande « mtree list » décrites à l’étape 3.
  • Répertoriez les snapshots qui existent pour chaque mtree à l’aide de la commande « snapshot list » :
# snapshot list mtree [nom de la mtree]

Si la commande est exécutée sur une mtree sans snapshots, vous obtenez la sortie suivante :
 
# snapshot list mtree /data/col1/Default
Snapshot Information for MTree: /data/col1/Default
----------------------------------------------
No snapshots found.

Si la commande est exécutée sur une mtree qui contient des snapshots, vous obtenez la sortie suivante :
 
# snapshot list mtree /data/col1/labtest
Snapshot Information for MTree: /data/col1/labtest
----------------------------------------------
Name                                  Pre-Comp (GiB)   Create Date         Retain Until        Status 
------------------------------------  --------------   -----------------   -----------------   -------
testsnap-2016-03-31-12-00                     1274.5   Mar 31 2016 12:00   Mar 26 2017 12:00   expired
testsnap-2016-05-31-12-00                     1198.8   May 31 2016 12:00   May 26 2017 12:00          
testsnap-2016-07-31-12-00                     1301.3   Jul 31 2016 12:00   Jul 26 2017 12:00          
testsnap-2016-08-31-12-00                     1327.5   Aug 31 2016 12:00   Aug 26 2017 12:00          
testsnap-2016-10-31-12-00                     1424.9   Oct 31 2016 12:00   Oct 26 2017 13:00          
testsnap-2016-12-31-12-00                     1403.1   Dec 31 2016 12:00   Dec 26 2017 12:00          
testsnap-2017-01-31-12-00                     1421.0   Jan 31 2017 12:00   Jan 26 2018 12:00          
testsnap-2017-03-31-12-00                     1468.7   Mar 31 2017 12:00   Mar 26 2018 12:00      
REPL-MTREE-AUTO-2017-05-11-15-18-32           1502.2   May 11 2017 15:18   May 11 2018 15:18         

-----------------------------------   --------------   -----------------   -----------------   -------
  • Là où vous trouvez des snapshots, utilisez la sortie de la commande « snapshot list mtree [nom de la mtree] » pour identifier les snapshots qui :
N’ont pas expiré (voir la colonne Status)
Ont été créés il y a longtemps (par exemple, les snapshots créés en 2016 dans la liste ci-dessus)

Il convient de faire expirer ces snapshots afin de pouvoir les supprimer lors de l’exécution des opérations de nettoyage et de libérer l’espace qu’ils occupent sur le disque :

# snapshot expire [nom du snapshot] mtree [nom de la mtree]

Par exemple :
 
# snapshot expire testsnap-2016-05-31-12-00 mtree /data/col1/labtest
Snapshot "testsnap-2016-05-31-12-00" for mtree "/data/col1/labtest" will be retained until May 19 2017 19:31.
  • Si vous exécutez de nouveau la commande snapshot list, ces snapshots seront désormais répertoriés comme ayant expiré :
# snapshot list mtree /data/col1/labtest
Snapshot Information for MTree: /data/col1/labtest
----------------------------------------------
Name                                  Pre-Comp (GiB)   Create Date         Retain Until        Status 
------------------------------------  --------------   -----------------   -----------------   -------
testsnap-2016-03-31-12-00                     1274.5   Mar 31 2016 12:00   Mar 26 2017 12:00   expired
testsnap-2016-05-31-12-00                     1198.8   May 31 2016 12:00   May 26 2017 12:00   expired       
testsnap-2016-07-31-12-00                     1301.3   Jul 31 2016 12:00   Jul 26 2017 12:00          
testsnap-2016-08-31-12-00                     1327.5   Aug 31 2016 12:00   Aug 26 2017 12:00          
testsnap-2016-10-31-12-00                     1424.9   Oct 31 2016 12:00   Oct 26 2017 13:00          
testsnap-2016-12-31-12-00                     1403.1   Dec 31 2016 12:00   Dec 26 2017 12:00          
testsnap-2017-01-31-12-00                     1421.0   Jan 31 2017 12:00   Jan 26 2018 12:00          
testsnap-2017-03-31-12-00                     1468.7   Mar 31 2017 12:00   Mar 26 2018 12:00      
REPL-MTREE-AUTO-2017-05-11-15-18-32           1502.2   May 11 2017 15:18   May 11 2018 15:18         

-----------------------------------   --------------   -----------------   -----------------   -------

Remarque :
  • Il n’est pas possible de déterminer la quantité de données physiques qu’un snapshot ou un ensemble de snapshots détient sur le disque : la seule valeur de l’espace associé à un snapshot donne une indication sur la taille précompressée (logique) de la mtree au moment de la création du snapshot (comme indiqué dans la sortie ci-dessus).
  • Les snapshots nommés REPL-MTREE-AUTO-YYYY-MM-DD-HH-MM-SS sont gérés par la réplication de mtree et, dans des circonstances normales, il n’est pas nécessaire de les faire expirer manuellement (la réplication force automatiquement l’expiration de ces snapshots lorsqu’ils ne sont plus nécessaires). Si ces snapshots sont extrêmement anciens, cela indique que le contexte de réplication correspondant risque d’afficher une latence significative (comme décrit à l’étape 2).
  • Les snapshots nommés REPL-MTREE-RESYNC-RESERVE-YYYY-MM-DD-HH-MM-SS sont créés par la réplication de mtree en cas de rupture d’un contexte de réplication de mtree. L’idée est de pouvoir les utiliser pour éviter une resynchronisation totale des données de réplication si le contexte rompu est recréé ultérieurement (par exemple, si le contexte a été interrompu par erreur). Si la réplication n’est pas destinée à être rétablie, il est possible de faire expirer ces contextes manuellement, comme décrit ci-dessus.
  • Les snapshots ayant expiré demeurent sur le système jusqu’à ce que la prochaine opération de nettoyage de la mémoire soit effectuée. Dès lors, ils sont supprimés physiquement et n’apparaîtront plus dans la sortie de la commande « # snapshot list mtree [nom de la mtree] ». L’opération de nettooyage permet dans ce cas de récupérer l’espace que ces snapshots utilisaient sur le disque.
Étape 5 : rechercher un nombre inattendu d’anciens fichiers sur le système

Les rapports de support automatique du DDR contiennent des histogrammes qui décomposent les fichiers sur le DDR en les classant par ancienneté. Par exemple :
 
File Distribution
-----------------
448,672 files in 5,276 directories

                          Count                         Space
               -----------------------------   --------------------------
         Age         Files       %    cumul%        GiB       %    cumul%
   ---------   -----------   -----   -------   --------   -----   -------
       1 day         7,244     1.6       1.6     4537.9     0.1       0.1
      1 week        40,388     9.0      10.6    63538.2     0.8       0.8
     2 weeks        47,850    10.7      21.3    84409.1     1.0       1.9
     1 month       125,800    28.0      49.3   404807.0     5.0       6.9
    2 months       132,802    29.6      78.9   437558.8     5.4      12.3
    3 months         8,084     1.8      80.7   633906.4     7.8      20.1
    6 months         5,441     1.2      81.9  1244863.9    15.3      35.4
      1 year        21,439     4.8      86.7  3973612.3    49.0      84.4
    > 1 year        59,624    13.3     100.0  1265083.9    15.6     100.0
   ---------   -----------   -----   -------   --------   -----   -------

Cette étape peut être utile pour déterminer si le système contient des fichiers sur le système qui n’ont pas expiré ou qui n’ont pas été supprimés comme prévu par l’application de sauvegarde client. Par exemple, si les données du système ci-dessus ont été écrites par une application de sauvegarde qui prévoit pour n’importe quel fichier une période de conservation maximale de 6 mois, il apparaît évident que l’application de sauvegarde ne force pas l’expiration ou la suppression des fichiers comme prévu, car le DDR contient approximativement 80 000 fichiers de plus de 6 mois.

Remarques :
  • il incombe à l’application de sauvegarde d’effectuer toutes les opérations de suppression et d’expiration de fichiers
  • Un DDR ne force jamais automatiquement l’expiration/la suppression des fichiers. À moins que l’application de sauvegarde ne demande explicitement de supprimer un fichier, le fichier demeurera sur le DDR et continuera d’utiliser de l’espace indéfiniment.
Ce type de problème doit donc d’abord être examiné par l’équipe de support du fournisseur de l’application de sauvegarde.

Si nécessaire, le support Data Domain peut fournir des rapports supplémentaires pour :
  • Indiquer le nom/la date de modification de tous les fichiers d’un DDR classés par ancienneté (de manière à pouvoir déterminer le nom et l’emplacement de toutes les anciennes données)
  • Séparer les histogrammes d’ancienneté des fichiers en rapports distincts correspondant au niveau actif/d’archivage/cloud (où les fonctionnalités ER/LTR sont activées)
Pour cela, procédez comme suit :
  • Collectez les éléments de preuve comme décrit dans le paragraphe relatif à la collecte des sfs_dump de la section Remarques du présent document.
  • Envoyez une demande de service à votre fournisseur de support
Une fois que les anciens fichiers ou les fichiers inutiles ont été supprimés, vous devez exécuter les opérations de nettoyage de la mémoire sur le niveau actif pour récupérer physiquement l’espace dans le niveau actif

Étape 6 : rechercher les sauvegardes qui comprennent un grand nombre de petits fichiers

En raison de la conception de DDFS, les petits fichiers (c’est-à-dire tout fichier d’une taille inférieure à environ 10 Mo) peuvent consommer énormément d’espace lorsqu’ils sont initialement créés sur le DDR. Cette contrainte est due à l’architecture « SISL » (Stream Informed Segment Layout), qui amène les petits fichiers à utiliser sur le disque plusieurs blocs d’espace individuels de 4,5 Mo. Par exemple, un fichier de 4 Ko peut consommer en réalité jusqu’à 9 Mo d’espace disque physique lorsqu’il est écrit pour la première fois.

Cet espace excessif est ensuite récupéré lors de l’exécution des opérations de nettoyage de la mémoire (puisque les données des petits fichiers sont ensuite regroupées en un plus petit nombre de blocs de 4,5 Mo), mais les plus petits modèles de DDR peuvent dans ce cas afficher un taux d’utilisation excessif et se remplir lors de l’exécution de ces sauvegardes.

Les rapports de support automatique contiennent des histogrammes de fichiers décomposés par taille, par exemple :
 
                          Count                         Space
               -----------------------------   --------------------------
        Size         Files       %    cumul%        GiB       %    cumul%
   ---------   -----------   -----   -------   --------   -----   -------
       1 KiB         2,957    35.8      35.8        0.0     0.0       0.0
      10 KiB         1,114    13.5      49.3        0.0     0.0       0.0
     100 KiB           249     3.0      52.4        0.1     0.0       0.0
     500 KiB         1,069    13.0      65.3        0.3     0.0       0.0
       1 MiB           113     1.4      66.7        0.1     0.0       0.0
       5 MiB           446     5.4      72.1        1.3     0.0       0.0
      10 MiB           220     2.7      74.8        1.9     0.0       0.0
      50 MiB         1,326    16.1      90.8       33.6     0.2       0.2
     100 MiB            12     0.1      91.0        0.9     0.0       0.2
     500 MiB           490     5.9      96.9      162.9     0.8       1.0
       1 GiB            58     0.7      97.6       15.6     0.1       1.1
       5 GiB            29     0.4      98.0       87.0     0.5       1.6
      10 GiB            17     0.2      98.2      322.9     1.7       3.3
      50 GiB            21     0.3      98.4     1352.7     7.0      10.3
     100 GiB            72     0.9      99.3     6743.0    35.1      45.5
     500 GiB            58     0.7     100.0    10465.9    54.5     100.0
   > 500 GiB             0     0.0     100.0        0.0     0.0     100.0
   ---------   -----------   -----   -------   --------   -----   -------

S’il existe des preuves que les sauvegardes génèrent un très grand nombre de petits fichiers, le système peut être affecté par de fortes augmentations temporaires du taux d’utilisation entre deux appels de l’opération de nettoyage de la mémoire. Dans ce scénario, il est préférable de modifier la méthodologie de sauvegarde de manière à intégrer tous les fichiers de petite taille dans un seul fichier d’archive plus volumineux (tel qu’un fichier tar) avant de les écrire sur le DDR. Notez que ces archives ne doivent pas être compressées ou chiffrées (car cela risquerait d’affecter le taux de compression/déduplication de ces données).

Étape 7 : rechercher un taux de déduplication plus faible prévu

L’objectif principal d’un DDR est de dédupliquer et compresser les données acquises par l’appareil. Le taux de déduplication/compression dépend fortement du cas d’utilisation du système et du type de données qu’il contient, mais dans de nombreux cas, il s’agit d’un taux de compression global « attendu », calculé à partir des résultats obtenus lors de tests de validation de concept ou autres tests similaires. Pour déterminer le taux de compression global actuel du système (et par conséquent, voir s’il répond aux attentes), vous pouvez utiliser la commande « filesys show compression ». Par exemple :
 
# filesys show compression

From: 2017-05-03 13:00 To: 2017-05-10 13:00

Active Tier:
                   Pre-Comp   Post-Comp   Global-Comp   Local-Comp      Total-Comp
                      (GiB)       (GiB)        Factor       Factor          Factor
                                                                     (Reduction %)
----------------   --------   ---------   -----------   ----------   -------------
Currently Used:*    20581.1       315.4             -            -    65.3x (98.5)
Written:
  Last 7 days         744.0         5.1         80.5x         1.8x   145.6x (99.3)
  Last 24 hrs
----------------   --------   ---------   -----------   ----------   -------------
 * Does not include the effects of pre-comp file deletes/truncates

Dans l’exemple ci-dessus, le système atteint un taux de compression global de 65,3x pour le niveau actif (qui est extrêmement bon). Toutefois, si cette valeur indique que le taux de compression global ne répond pas aux attentes, ce qui signifie qu’une procédure d’enquête plus poussée est probablement nécessaire. Notez que la procédure d’enquête sur un taux de compression inférieur au niveau prévu est un sujet assez complexe qui peut avoir de nombreuses causes premières. Pour plus d’informations à ce sujet, veuillez consulter l’article suivant : https://support.emc.com/kb/487055

Étape 8 : vérifier si le système est une source pour la réplication de collecte

Lors de l’utilisation de la réplication de collecte, si le système source est physiquement plus volumineux que le système de destination, la taille du système source est artificiellement limitée afin de correspondre à celle de la destination (c’est-à-dire que la source contiendra une zone de disque marquée comme étant inutilisable). En effet, la réplication de collecte impose que la destination soit une copie en mode bloc de la source, mais si la source est physiquement plus volumineuse que la destination, il y a des risques que des données en quantité excessive soient écrites sur la source et que ces données ne puissent pas être répliquées sur la destination (déjà saturée). Le fait de limiter la taille de la source pour qu’elle corresponde à la destination ne permet pas d’éviter ce type de scénario.
  • À l’aide des commandes de l’étape 2, assurez-vous que le système est une source pour la réplication de collecte. Pour ce faire, vous devez exécuter la commande « replication status » et déterminer s’il existe des contextes de réplication commençant par « col:// » (qui indique une réplication de collecte) qui ne contiennent PAS le nom d’hôte du système local dans la destination (ce qui signifie que ce système doit être une source pour le contexte de réplication)
  • Si le système est une source pour la réplication de collecte, vérifiez la taille du niveau actif de chaque système en vous connectant aux deux systèmes et en exécutant la commande « filesys show space ». Comparez ensuite la taille « post-comp » des niveaux actifs sur chaque système.
  • Si la source est beaucoup plus volumineuse que la destination, la taille de son niveau actif sera alors limitée artificiellement.
  • Pour pouvoir utiliser la totalité de l’espace de la source, vous devez procéder de la manière suivante :
Ajoutez du stockage supplémentaire au niveau actif de la destination afin que sa taille soit >= à celle du niveau actif de la source.
Rompez le contexte de réplication de collecte (à l’aide des commandes de l’étape 2). Notez, bien évidemment, que cela empêchera la réplication des données de la source -> DDR de destination.

Dès que vous avez effectué l’une ou l’autre des opérations ci-dessus, un espace supplémentaire sera immédiatement disponible dans le niveau actif du système source (autrement dit, il n’est pas nécessaire d’exécuter les opérations de nettoyage de la mémoire sur le niveau actif pour pouvoir utiliser cet espace).

Étape 9 : vérifier si le déplacement des données s’exécute régulièrement

Si le DDR est configuré avec les paramètres Extended Retention (ER) ou Long Term Retention (LTR), un second niveau de stockage lui est automatiquement rattaché (niveau d’archivage pour le mode ER ou niveau Cloud pour le mode LTR). Dans ce scénario, il est probable que les règles de déplacement des données soient configurées en fonction des structures mtree, afin de migrer les données anciennes/non modifiées qui doivent être conservées à long terme entre le niveau actif et le niveau de stockage secondaire, de manière à pouvoir récupérer physiquement l’espace utilisé par ces fichiers dans le niveau actif à l’aide d’un nettoyage de la mémoire. Si les règles de déplacement des données sont mal configurées ou si le processus de déplacement des données n’est pas exécuté régulièrement, les anciennes données demeureront dans le niveau actif plus longtemps que prévu, en continuant d’utiliser l’espace physique disponible sur le disque.
  • Confirmez dans un premier temps si le système est configuré en mode ER ou LTR. Pour cela, exécutez la commande « filesys show space » et vérifiez s’il existe un niveau d’archivage ou un niveau cloud. Notez que pour pouvoir utiliser ces niveaux de stockage alternatifs, la taille post-comp doit être > 0 Go :
# filesys show space
...
Archive Tier:
Resource           Size GiB   Used GiB   Avail GiB   Use%   Cleanable GiB
----------------   --------   --------   ---------   ----   -------------
/data: pre-comp           -     4163.8           -      -               -
/data: post-comp    31938.2     1411.9     30526.3     4%               -
----------------   --------   --------   ---------   ----   -------------

# filesys show space
...
Cloud Tier
Resource           Size GiB   Used GiB   Avail GiB   Use%   Cleanable GiB
----------------   --------   --------   ---------   ----   -------------
/data: pre-comp           -        0.0           -      -               -
/data: post-comp   338905.8        0.0    338905.8     0%             0.0
----------------   --------   --------   ---------   ----   -------------

Notez que les paramètres ER et LTR sont mutuellement exclusifs. Autrement dit, un système doit contenir soit uniquement un niveau actif (sans ER/LTR configuré) soit un niveau actif et un niveau d’archivage (en mode ER) ou un niveau actif et un niveau Cloud (en mode LTR).
  • Si le système est configuré en mode ER/LTR, vérifiez les règles de déplacement des données par rapport aux structures mtree afin de vous assurer que celles-ci sont conformes et que les anciennes données seront transférées vers un autre niveau de stockage :
ER : # archive data-movement policy show
LTR : # data-movement policy show

Si les règles de déplacement des données sont incorrectes/manquantes, vous devez les corriger. Pour obtenir de l’aide à ce sujet, reportez-vous au Guide d’administration de Data Domain.
  • Si le système est configuré en mode ER/LTR, vérifiez que le déplacement des données est planifié pour s’exécuter à intervalles réguliers afin de migrer physiquement les fichiers/données du niveau actif vers un autre niveau de stockage :
ER : # archive data-movement schedule show
LTR : # data-movement schedule show

Notez que Data Domain recommande généralement d’exécuter le déplacement des données à l’aide d’un planning automatisé, mais certains clients préfèrent le faire de façon ponctuelle, quand ils en ont besoin. Dans ce scénario, le déplacement des données doit être lancé régulièrement en exécutant la commande suivante :
 
ER : # archive data-movement start
LTR : # data-movement start

Pour plus d’informations sur la modification du planning de déplacement des données, reportez-vous au Guide d’administration de Data Domain.
  • Si le système est configuré en mode ER/LTR, vérifiez la dernière date d’exécution du déplacement des données :
ER : # archive data-movement status
LTR : # data-movement status

Si le déplacement des données n’a pas été exécuté pendant un certain temps, procédez comme suit pour démarrer manuellement le processus et surveiller son déroulement :
 
ER : # archive data-movement watch
LTR : # data-movement watch

Si le déplacement des données ne parvient pas à démarrer pour quelque raison que ce soit, veuillez contacter votre fournisseur de support pour obtenir de l’aide.
  • Une fois le déplacement des données effectué, vous devez exécuter le niveau actif (notez qu’il peut être configuré pour démarrer automatiquement à la fin du processus de déplacement des données) afin de vous assurer que l’espace utilisé par les fichiers migrés dans le niveau actif est physiquement libéré :
# filesys clean start

Sur les systèmes ER, le déplacement des données est souvent planifié pour s’exécuter à intervalles réguliers (par exemple, une fois par semaine). Il est aussi fréquent de configurer le niveau actif pour qu’il s’exécute à la fin du processus de déplacement des données. Dans ce scénario, le nettoyage du niveau actif n’est pas lui-même planifié de façon indépendante. Pour effectuer cette configuration, vous pouvez supprimer le planning actuel du nettoyage du niveau actif :

# filesys clean set schedule never.


Configurez le système pour exécuter le déplacement des données à intervalles réguliers et lancer immédiatement un nettoyage automatique du niveau actif, par exemple pour exécuter le déplacement des données tous les mardis à 6 h 00 et lancer immédiatement un nettoyage du niveau actif

# archive data-movement schedule set days Tue time 0600
Le planning du déplacement des données d’archive a bien été configuré.
Le déplacement des données d’archive a été planifié pour s’exécuter les mardis à 6 h 00


Pour confirmer que le nettoyage du niveau actif sera bien lancé après l’exécution du processus de déplacement des données, utilisez la commande suivante :

# archive show config
Enabled                                         Yes                               
Data movement Schedule                          Run on day(s) "tue" at "06:00" hrs   <=== SCHEDULE
Data movement throttle                          100 percent                       
Default age threshold data movement policy      14 days                           
Run filesys clean after archive data movement   Yes   <=== RUN CLEAN ON COMPLETION
Archive Tier local compression                  gz                                
Packing data during archive data movement       enabled                           
Space Reclamation                               disabled                          
Space Reclamation Schedule                      No schedule

Sur des systèmes LTR, le nettoyage de la couche actif doit toujours être configuré avec son propre planning

Étape 10 : ajouter du stockage supplémentaire au niveau actif

Si vous avez effectué toutes les étapes ci-dessus et que le nettoyage du niveau actif a bien été exécuté, mais qu’il n’y a toujours pas assez d’espace disponible sur le niveau actif, il est probable que le système n’ait pas été correctement dimensionné pour la charge applicative qu’il reçoit. Dans ce cas, vous devez suivre l’une des recommandations ci-dessous :
  • Réduire la charge applicative qui accède au système, par exemple :
Rediriger un sous-ensemble de sauvegardes vers un autre stockage
Réduire la période de conservation des sauvegardes, afin de forcer plus rapidement leur expiration/suppression
Réduire le nombre/la période de conservation des snapshots planifiés par rapport aux structures mtree sur le système
Rompre les contextes de réplication inutiles dans lesquels le système local est défini comme destination, puis supprimer les mtrees correspondantes.
  • Ajouter du stockage supplémentaire au niveau actif du système et augmenter sa taille :
# storage add [tier active] enclosure [enclosure number] | disk [device number]
# filesys expand

Pour savoir comment augmenter votre capacité de stockage, contactez votre équipe de compte.

Дополнительная информация


Le support Data Domain peut générer un certain nombre de rapports indiquant diverses informations, par exemple :
  • Liste de tous les fichiers d’un niveau particulier (par exemple, actif/archive/Cloud) classés par ancienneté
  • Taille et taux de compression estimés par arborescence mtree/répertoire principal
  • Liste de tous les fichiers d’un mtree spécifique classé par ancienneté,
  • etc.

Pour obtenir ces rapports, vous devez collecter les informations suivantes :
  • un nouveau bundle de support à partir du DDR : pour plus d’informations, reportez-vous à l’article suivant : https://support.emc.com/kb/323283
  • Sortie de la commande « sfs_dump' or 'sfs_dump -c » :
connectez-vous à l’interface de ligne de commande du DDR et passez en mode se (notez qu’à ce stade, les systèmes configurés avec le chiffrement et/ou avec un verrou de conservation peuvent vous inviter à saisir les informations d’identification d’un utilisateur ayant un rôle de « sécurité ») :
 
# system show serialno
[numéro de série du système affiché]
# priv set se
[invite de mot de passe - saisissez le numéro de série du système comme ci-dessus]
 
Activez la journalisation dans votre session de terminal. Par exemple, si vous utilisez Putty, vous pouvez procéder de la manière suivante : Cliquez avec le bouton droit de la souris sur la barre de menus -> Change Settings... -> Session -> Logging -> Sélectionnez All Session Output, puis sélectionnez un nom de fichier -> Apply
Exécutez la commande sfs_dump :

# se sfs_dump

Lorsque vous avez terminé, procurez-vous une copie du journal de sessions pour une analyse plus approfondie.
  • Un rapport sur l’emplacement des fichiers (obligatoire si le système est configuré pour ER ou LTR) :
Connectez-vous à l’interface de ligne de commande du DDR
Activez la journalisation dans votre session de terminal. Par exemple, si vous utilisez Putty, vous pouvez procéder de la manière suivante : Cliquez avec le bouton droit de la souris sur la barre de menus -> Change Settings... -> Session -> Logging -> Sélectionnez All Session Output, puis sélectionnez un nom de fichier -> Apply
Collectez un rapport sur l’emplacement du fichier :

ER : # archive report generate file-location
LTR : # filesys report generate file-location


Lorsque vous avez terminé, procurez-vous une copie du journal de sessions pour une analyse plus approfondie.

Afin d’obtenir de l’aide pour collecter les informations ci-dessus ou pour suivre l’une des étapes de cette archive, contactez votre fournisseur de services de support.

Затронутые продукты

Data Domain

Продукты

Data Domain
Свойства статьи
Номер статьи: 000054303
Тип статьи: Solution
Последнее изменение: 21 Jul 2025
Версия:  6
Получите ответы на свои вопросы от других пользователей Dell
Услуги технической поддержки
Проверьте, распространяются ли на ваше устройство услуги технической поддержки.