开始新对话

未解决

此帖子已超过 5 年

Community Manager

 • 

6.1K 消息

1809

2016年11月28日 21:00

Data Domain的文件系统清理(File system cleaning)

Data Domain的文件系统清理(File system cleaning

转载请在文首保留原文出处:EMC中文支持论坛https://community.emc.com/go/chinese Weibo Icon.gif                       

介绍

本文是 【专家问答】老司机带您玩转Data Domain 中嘉宾分享的文章,将为您介绍Data Domain的文件系统清理(File system cleaning)。

更多信息

1.    1. 什么是文件系统清理

当您的备份应用程序(如NetBackupNetWorker)过期数据时,DD上的数据由文件系统标记为删除。但是,数据并不会立即被删除,而是在文件系统清理期间被删除.

·         在清洁操作期间,文件系统可用于所有正常操作, 包括备份(写)和恢复(读)。

·         虽然文件系统清理会使用一定的系统资源,但是该进程所占用的资源是可以通过设置阈值来控制的。

·         Data Domain建议在第一次完全备份之后运行file system cleaning

·         当清洁操作完成时,会向系统日志发送一条消息记录回收的存储空间百分比。

默认计划在每个星期二上午6点(06:00时)运行清洁操作。您可以更改计划,或者您可以手动执行清理操作。(Data Domain建议每周运行一次清洁操作。)

在文件系统被禁用(disable)或者Data Domain被关闭(例如系统电源关闭或重新启动)的情况下,清洁操作将被终止。系统重新启动时,清理操作不会立即重新启动。您可以手动重新开始清洁操作或等待下一次计划清洁操作。

2.    2. 文件系统清理的各个阶段:

下面各阶段的说明, 本案例基于DDOS 5.5 之后的DDOS版本。从DDOS 5.5开始,新的清理过程(物理清理)将不再逻辑地枚举命名空间(Name Space)中的文件。在之前版本的cleaning中,枚举阶段以文件为单位遍历每个文件的BTREE结构,因此重复的metadata可能会被多次遍历。而在物理清理中,枚举阶段通过扫描容器集(CSET)来并行地遍历所有文件树(BTREE),在多个文件之间共享的每个元数据段将只扫描一次。物理枚举的运行时间取决于系统上的元数据(metadata)的数量以及这种元数据跨容器集分布的方式。

物理清洁引入了两个新阶段:预分析和分析。这些新阶段设置了物理枚举所需的一些数据结构。新阶段的运行时间取决于文件系统中元数据的总量。

以下是物理清理的每个阶段的说明:

1)    预合并:将内存中的index文件写入到磁盘, 并与full index进行合并,该阶段是为枚举阶段而做准备。

2)    预分析:为索引中的所有元数据段构建散列向量,以加快索引的检索速度

3)    预枚举:以元数据为单位枚举文件。它可能只对部分数据段进行采样,以帮助估计可删除的水平所集中在磁盘上的位置。

4)    预过滤:如果写入的数据中依然有重复数据,则找出它的位置,以便可以从系统中删除。

5)    预选择:选择具有最多可删除数据的物理空间。这些将作为清理的目标区域。

6)    候选:由于内存限制,每次清洁运行中只能清除一部分物理空间。运行候选阶段以选择要清理的数据子集,并记住数据中的内容。

7)    合并:索引合并将索引数据刷新到磁盘并为物理枚举创建参考点。

8)    分析:为索引中的所有元数据段构建散列向量。

9)    枚举:基于元数据来枚举所有文件,确认哪些文件是未被标记为删除的,应该保留在系统中。

10)  过滤:如果写入的数据中依然有重复数据,则找出它的位置,以便可以从系统中删除。

11)  复制:将目标容器(container)中需要的数据摘取出来 , 写入到新的容器中, 并删除旧的容器(旧的容器中将包含已经删除的磁盘碎片)

12)  摘要:创建系统上的实时数据的摘要。

3.    3. 如何查询文件系统清理的相关信息

·         查看上一次cleaning完成的时间, 使用df命令:

      

# df

Active Tier:

Resource           Size GiB   Used GiB   Avail GiB   Use%   Cleanable GiB*

----------------   --------   --------   ---------   ----   --------------

/data: pre-comp           -     6605.3           -      -                -

/data: post-comp    32068.8      298.3     31770.6     1%              1.4

/ddvar                 29.5       17.5        10.5    63%                -

----------------   --------   --------   ---------   ----   --------------

* Estimated based on last cleaning of 2016/11/15 06:09:22.

·         可以通过日志分析过去的清理进程的耗时以及结果:

# log view debug/messages.engineering

### 搜索以下关键字: ###

Apr 22 06:00:01 DD4200-Shanghai ddfs[5640]: NOTICE: MSG-GC-00009: Cleaning started

Apr 22 06:02:25 DD4200-Shanghai ddfs[5640]: NOTICE: MSG-GC-00005: Cleaning completed: 0:02:24 elapsed, 92% of used space freed, 0% of total space freed, 113246208 bytes freed

·         文件系统清理在每次成功执行完成之后会更新一个报告, 可以通过# filesys show detailed-stats 70 来查看每一步消耗的时间. 该信息也可在每天的autosupport日志中找到

# priv set se

      Enter system password:  << 输入产品序列号作为SE模式的密码

# filesys show detailed-stats 70

GC stats for Physical Cleaning on Active Success 4 Aborted 0

Most recent successful GC container range: 145311 to 297545

GC phase:        pre-merge    time:     130 average:     135    seg/s:        0    cont/s:       0

GC phase:     pre-analysis    time:     146 average:     146    seg/s:        0    cont/s:       0

GC phase:  pre-enumeration    time:      75 average:      66    seg/s:  5140504    cont/s:       0

GC phase:       pre-filter    time:     152 average:     141    seg/s:  1164515    cont/s:       0

GC phase:       pre-select    time:      30 average:      28    seg/s:  2253389    cont/s:    2360

GC phase:             copy    time:       9 average:       7    seg/s:        0    cont/s:     630

GC phase:          summary    time:      28 average:      25    seg/s:        0    cont/s:    2334

# 将每一个阶段的时间累加起来, 即为上一次文件系统清理周期所消耗的时间.

应用于

Data Domain

#IWork4Dell

请您将合适的回复标记为“接受的回答”,并为喜欢的帖子“点赞”。这对我们非常重要!

没有回复!
找不到事件!

Top