Highlighted
KRhelen
3 Argentium

【专家问答】畅谈Avamar最佳实践

好消息,新一期的“专家问答”活动正式开启。本期开设的是Avamar专场,从12月7日至12月20日(周日)期间,由四位Avamar的资深专家,和大家一起讨论和分享有关Avamar的容量管理,虚拟机备份,与Data Domain的整合,数据库备份,备份性能调试等等领域的话题。只要您有任何Avamar相关问题,我们的专家照单全收,与您畅快切磋!


以往所有已完成的“专家问答”活动可参考这个汇总贴

本期讨论主题:畅谈Avamar最佳实践

本期持续时间:2015年12月7日 – 12月20日。活动结束后,本贴将锁定,有相关的后续问题可开新贴提问。


本期我们邀请到的专家是:


Jason Ma.jpg


Jason Ma(马海宾)

EMC Avamar资深技术专家,IT从业十年的经验。持有Avamar认证Expert,VMWware认证VCP,微软认证MCSE。精通Avamar备份,灾难恢复,管理和排错。精通VMware备份和快照管理,精通微软Exchange,SQL和Hyper-V服务器。





Alison Dai.png


Alison Dai(戴骊融)

EMC Avamar资深技术专家,目前就职于EMC全球技术支持中心, 负责Avamar系列产品的售后技术支持工作。熟悉Avamar产品的系统架构,精通Avamar产品的硬件问题以及软件问题,有丰富的处理经验,并熟悉与Avamar相整合的Data Domain以及AER相关知识。




Cale Gu.jpg


Cale Gu(顾进益)

EMC Avamar资深技术专家,擅长解决Avamar维护窗口问题,容量问题,同步复制以及Avamar节点硬件和操作系统相关问题。




Roy Tian.jpg


Roy Tian田牧原

EMC资深技术专家, 从事远程技术支持工作多年。目前就职于EMC全球支持中心,主要负责Avamar产品的售后技术支持工作。熟悉数据中心存储网络基础架构,精通Avamar产品的硬件核心技术和架构,对数据中心的本地及远程数据复制和备份中的应用拥有非常丰富的经验


和专家交流,与同行畅谈。欢迎大家以回帖的方式就Avamar 这一产品的相关问题,来积极提问和踊跃发表自己的意见。期待您的参与!

标签 (3)
0 项奖励
30 条回复
JasonMa1
1 Nickel

Re: 【专家问答】畅谈Avamar最佳实践

【Alison Dai】欢迎参与Avamar的讨论,今天给大家分享一下关于Avamar 容量管理的心得

Avamar的容量有两个概念,一个是gsan层面的容量,一个是系统层面的容量。

对于gsan的容量来说,是存储的备份空间占用的,他的大小是有cur这个文件夹的大小来决定的。Cur的默认的最大值是65%,而且一旦变大了,就没有办法减小,及时把数据删光,cur所占的大小还是不变的。由于cur有这样的大小限制,因此gsan的容量最大值是65%,如果超过了65% 那么Avamar就会进入一种只读的状态,这时候,所有的备份就会被挂起。只有将gsan的空间清理出来才可以继续跑备份。我们来观察gsan的容量有两个方法,一个是远程登录到Avamar上面,输入命令“status.dpn”, 这时候您会看到下面的输出。

3.jpg


可以看到很多百分数,这些百分数里面的最大值,就被认为是gsan的容量。第二种查看gsan容量的方法是,可以登录到Avamar的图形控制界面上,在首页上我们可以方便的看到现在gsan的使用率,只是这个使用率是百分数表示的,即gsan容量/65×100%所得到的。

对于Avamar的系统空间来说,包括65%cur的空间。 剩余的空间可以用作cpoverhead。但是对于系统空间来说,如果系统使用率达到85% 那么这时候GC将会失败。超过90% 将不能够跑新的备份。超过96%的话,checkpoint就没有办法完成。所以,对于cp overhead的大小,最好是控制在系统空间的20%左右,即85%-65%=20%。一般来说,如果Avamar正常工作,每天的数据改变量不至于太大的话,每天会自动做新的checkpointhfscheck,这样的话,之前老的checkpoint就可以被替换掉,从而释放出系统空间。

4.jpg


0 项奖励
roytian
1 Copper

Re: 【专家问答】畅谈Avamar最佳实践

【Roy Tian】欢迎参与Avamar的讨论,今天给大家分享一下关于Avamar 备份的最佳实践

Avamar客户端是跑在客户系统上的本地应用。Avamar客户端软件主要由两个可执行程序组成:avagentavtar。该avagent程序作为客户机上的服务来运行,主要负责建立和保持客户机与Avamar服务器的通信。

Avamar服务器发起了一条备份的工作指令,avagent就会被调用。如果Avamar服务器和和客户机之前不能建立连接,avagent就会主动地联系Avamar服务器,在有规律的时间间隔内不断查询服务器是否有新的工作指令。如果连接正常,工作指令就会直接发给avagent.

当客户机收到工作指令后,avtar就会根据指令中一系列的参数来执行备份工作。该avtar程序执行备份通过局域网或者广域网连接到Avamar服务器。
Avamar使用TCP
/ IP作为基础协议进行连接。

下面,我将分别对备份窗口,维护窗口和复制进行分析和讲解。

备份窗口每天预留给定时备份的时间

  • 在备份窗口期,建议不要执行任何维护操作,例如 Garbage
    Collection Checkpoint Validation
  • 在默认设置下,备份窗口从晚上8点开始,一直持续到第二天早上8点,一共12个小时。
  • 允许客户定制,客户可以根据不同的备份策略和需求来调整备份窗口时间段。

维护窗口每天预留给服务器活动的时间

  • 虽然在维护窗口期间,备份可以执行,但是这会在一定程度上影响备份和维护工作。因此,在此期间,请尽量减少任何备份或者管理工作。恢复工作不会有任何影响。
  • 虽然garbage collection, hfscheck和备份可以重叠,但是这样会导致I/O资源竞争,使所有工作都需要更长的时间来完成,甚至会失败。
  • 在默认设置下,维护窗口从早上8点开始,一直持续到晚上8点,一共12个小时。
  • 维护窗口不能被直接修改,它的开始时间和持续时间是根据备份窗口导出的。

复制

当数据从本地复制到复制目标时,下列活动可以在本地执行:

  • 所有的维护工作。
  • 所有的备份工作。

当复制目标从复制源接收数据时,以下几点需要注意:

  • Garbage Collection不能在复制目标上执行,其他维护工作可以,例如:Checkpointhfscheck
  • 所有的备份可以立即执行。

最后,如果广域网WAN的吞吐量造成瓶颈,与复制重叠的备份并不会影响复制所需要的时间。另外,这种情况也只会略微影响到备份性能。

0 项奖励
版主
版主

Re: 【专家问答】畅谈Avamar最佳实践

各位专家好!

微信用户“杰森董”提问:

Avamar 的分布式索引架构具体是如何设计的?针对海量文件备份,上限能管理到什么规模?

0 项奖励
JasonMa1
1 Nickel

Re: 【专家问答】畅谈Avamar最佳实践

感谢Leo, 感谢 "杰森董"的提问,

Avamar的索引是集成在Avama ServerGsan服务中的,每一个客户端的备份都会对应一个root hash。所有备份的root hash会做成一个树形结构。每当需要查找一个备份的时候,Avamar会从最顶端往下一层一层找到对应的备份。不知道这个能否回答关于分布式索引架构的问题。

关于海量文件的备份,Avamar没有具体的限制。从最佳实践的角度,普通文件系统的备份可以达到每个小时1百万个文件。假设总文件数量是1千万的话,Avamar 完成备份大概需要10个小时。

Avamar还支持ndmp的备份,ndmp备份文件系统给的话,速度相对普通文件系统会更快

Jason Ma

0 项奖励
版主
版主

Re: 【专家问答】畅谈Avamar最佳实践

谢谢Jason的精彩回答。

0 项奖励
JasonMa1
1 Nickel

Re: 【专家问答】畅谈Avamar最佳实践

Hi Leo,

不客气 :-)

Jason Ma

0 项奖励
Cale1
1 Copper

Re: 【专家问答】畅谈Avamar最佳实践

Cale Gu】欢迎参与Avamar的讨论,今天给大家分享一下关于Avamar 维护窗口的最佳实践。

7.0及之后版本的Avamar将每天24小时分为备份窗口(Backup Window)和维护窗口(Maintenance Window)。备份窗口进行的是客户的备份客户端的备份工作,而维护窗口进行的是Avamar系统的日常维护工作,主要包括垃圾回收(Garbage Collection)、检查点(Checkpoint)、文件系统哈希值检查(HFScheck)。


垃圾回收是每天的第一项维护工作,主要进行的工作是回收过期的备份数据所占用的空间,运行时间根据系统空间使用率的不同从一个小时到几个小时。垃圾回收正常运行是能够保证系统长时间并且稳定的运行的前提,因为如果垃圾回收长时间没有运行,会导致系统空间使用率越来越高,直到100%,导致无法进行备份。


检查点的作用是相当于对系统当前状态做一个快照,用于在系统崩溃、无法启动Avamar服务时的回滚操作。每天Avamar会做两个检查点,一次是做完垃圾回收之后,一次是做完文件系统哈希值检查之后。检查点每天正常的运行能够保证系统在需要进行回滚时,备份数据损失的最小化。


系统每天在做完第一个检查点之后,就会对这个检查点进行文件系统哈希值检查。这项工作的目的是为了确保检查点的有效性和正确性。运行时间根据系统空间使用率不同而不同,从一小时以内到几个小时。


这三项维护工作每天的运行顺序是垃圾回收,检查点,文件系统哈希值检查,以及检查点。我们可以通过运行命令“status.dpn”来查看每天的运行情况(如下高亮部分),或者可以直接在Admin GUI 控制台上查看。如果发现有失败的项目,就需要立刻联系support解决。


Pic.png

0 项奖励
Helen_Hu
1 Copper

Re: 【专家问答】畅谈Avamar最佳实践

请问下在AVDD复制的时候,最佳实践是建议单个文件系统或者虚机要控制在12TB以下,然后数据类型的在6TB以下。那么在Avamar的环境中是否有相同的限制呢?如果没有的话,原因是什么?谢谢。

0 项奖励
JasonMa1
1 Nickel

Re: 【专家问答】畅谈Avamar最佳实践

Hi Helen,

在AVDD复制中,Avamar起的作用是控制台和存放metadata,备份本身是放在DD上的。关于12TB文件系统和6TB数据库系统的最佳实践要求我的理解是从复制时间窗口考虑的。数据太大会导致复制时间窗口非常长,单纯的Avamar replication我没有看到有类似的限制,但是也要从复制时间窗口上考虑复制的数据量

Jason Ma

0 项奖励