开始新对话

未解决

此帖子已超过 5 年

13642

2016年11月18日 00:00

【专家问答】老司机带您玩转Data Domain

好消息,新一期的“专家问答”活动正在进行中。本期专家问答将讨论Data Domain相关的技术话题。


坐镇专家均为从事多年Data Domain技术问题的高级资深技术工程师们,将全面和大家一起讨论和分享上述话题。不论您有任何关于此题目相关问题,或是想更多的了解其方方面面,请抓住这个与专家直接对话的机会,以回帖的方式来参与在线提问吧。

以往所有已完成的“专家问答”活动可参考这个汇总贴

本期讨论主题:老司机带您玩转Data Domain

本期持续时间:2016年11月21日–12月4日,为期两周。

我们邀请到的专家有:


Dennis Tong_副本.jpg


Dennis Tong 童嘉灏

Dennis Tong于2014年加入EMC Data Domain技术支持团队,专注IP网络协议方面的优化及排错,并且熟悉各种备份软件和Data Domain的集成和应用。



July Zhang_副本.jpg


July Zhang 张烨蔚

July Zhang于2014年加入EMC Data Domain 技术支持团队,“急诊室”技术支持工程师,负责处理抢救一些紧急的案例以及预诊各种疑难杂症,对于Data Domain硬件,文件系统,网络等方面都有一定了解。






Leon Zhao_副本.jpg


Leon Zhao 赵靓

Leon Zhao高级技术工程师,从事客户技术支持工作近10年,于2013年加入EMC Data Domain技术支持团队,主要负责DataDomain硬件和数据恢复以及网络联通和性能方面的支持工作。




Matt Song_副本.jpg


Matt Song  宋晓波

高级技术支持工程师。于2014年加入EMC Data Domain技术支持团队,之前曾有多年服务器系统运维经验, 熟悉Linux系统及多种编程语言。在Data Domain技术支持团队中专注于处理文件系统相关的各类疑难杂症。




和专家交流,与同行畅谈。欢迎大家以回帖的方式就本次主题相关问题,来积极提问和踊跃发表自己的意见。期待您的参与!

28 消息

2016年11月22日 20:00

请教前辈。

关于网络的设置在data domain新的一代中有没有更灵活的设计?

例如,LOCAL机房DD的IP是 192.168.100.10,那么local机房所有的备份client都是在 192.168.100.X 这个网段

remote机房DD的IP地址是 10.10.10.10,那么remote机房所有的client都在这个 10.10.10.X 这个网段。

两个机房之间有防火墙阻挡但相应的端口已经开通。

目前两个机房各自的备份都正常,且两个机房DD之前使用了DD boost通过EMC NW实施了CCR复制。用这个方式实现DR。

那么,每个机房的DD的IP不仅要承担各自备份任务且还要承担CCR复制的使用,

这样可不可以,LOCAL机房DD的这个地址192.168.100.10只用于本地备份,那么同样remote站点DD的10.10.10.10也只用于当地站点的备份。每个站点的DD再增加一个IP例如: 192.168.100.100 (local DD)   和 10.10.10.100 (remote DD) ,两个DD通过这两个IP进行CCR复制。

5 Practitioner

 • 

274.2K 消息

2016年11月22日 21:00

这样的设计是可以的,也是我们比较推荐的方式。

那在CCR的复制过程中,Data Domain会通过解析对端Data Domain的主机名(Networker 上配置的DD主机名)来确定远端的IP地址。

所以我们只需要在DD上做host mapping到192.168.100.100和10.10.10.100就可以了。

CLI:"net hosts add"

14 消息

2016年11月22日 22:00

前辈们,两台dd做复制,同步完成状态下,目标端数据量比原端数据量多,可能是什么情况?

28 消息

2016年11月22日 23:00

前辈,但是之前实施我参与的时候发现,即使一个DD设备可以配置两个或者多个IP地址然而只能使用其中的一个IP,或者有的时候想把同一个DD的两个IP聚合起来做均衡处理都不行。半年前设置DR系统的时候针对DD4200我只好disable其中一个网卡使用了。

5 Practitioner

 • 

274.2K 消息

2016年11月23日 16:00

Data Domain本质上是基于linux系统来开发的,所以DD的网络寻址方式是和普通linux系统差异不大的。

DD在发送数据的时候是遵从本地的路由表配置的。假如我们发现总是只使用一个ip,那我们需要检查DD的路由表。

可以通过增加静态路由的方式来手动调整使用的ip。

DD在接受数据的时候,那主要是接收方,所以主要取决于路由器和交换机的配置。

IP聚合的情况就更复杂一点。一般情况下LACP是需要交换机端做相应的配置才能正常负载均担的。

在很多案例中,客户在交换机这端的配合度不够,就时常出现DD和交换机配置不匹配的情况。

但由于交换机的厂商不同,型号不同所使用的命令也是不同的。很多时候我们是需要客户配合自行去检查交换机配置的。

可以参考以下文档:

February 23, 2012 - docu48800 - Detailed Link Aggregation Configuration

https://support.emc.com/docu48800_Detailed_Link_Aggregation_Configuration.pdf?language=en_US

5 Practitioner

 • 

274.2K 消息

2016年11月23日 16:00

这里说的目标端数据量比原端数据量多 是指的pre-comp(压缩前)数据量不同 还是说 post-comp(压缩后)数据量不同?

一般情况来说压缩前的数据量应该是一致的。

那压缩后的数量可能会有差别,这主要取决于消重率是多少。

Data Domain在消重时是基于本身已有的数据量来做计算的。所以只要两台DD的存储的数据内容或者总量是不同的,那即使是相同的数据在两台DD上的消重率也是不同的。

谢谢

28 消息

2016年11月24日 00:00

请教 如果 DD +  NW + DDboost 可以实现备份的DR

那么这个是基于NW复制而不是DD的复制,那么请问DD的复制能用来做什么?可以实现类似的DR么?

5 Practitioner

 • 

274.2K 消息

2016年11月24日 16:00

DD自己的一般分成三种,这三种复制也是可以做成DR备份的功能。

Mtree Replication: 用于复制Mtree的目录(/data/col1/xxx),基于快照进行复制。

Directory Replication:用于复制Backup(/data/col1/backup/xxx)下的目录,基于文件复制。

Collection Replicatoin:用于数据迁移,整台DD所有数据进行复制。

以上的复制都不需要前端备份软件NW的介入。

5 Practitioner

 • 

274.2K 消息

2016年11月24日 18:00

DataDomain 数据分区RAID机制介绍

  • DD-RAID的目标
    • 使数据更可靠,当一个硬盘故障时,可以从其他硬盘上将数据恢复。
  • DD-RAID支持的类型
    • RAID0, RAID1, RAID6, RAID100, RAID106
    • 在用户数据层面,在DD的扩展柜上使用的是由14块硬盘组成的RAID 6(AIO机型稍有不同,但用户数据分区仍然是Raid6).

RAID 6与RAID 5的不同之处于除了每个硬盘上都有同级数据XOR校验区外,还有一个针对每个数据块的XOR校验区。当然,当前盘数据块的校验数据不可能存在当前盘而是交错存储的,具体形式见图。(Ap, Aq为A1A2A3的校验位,并且是存储于不同的物理磁盘上。)

这样一来,等于每个数据块有了两个校验保护屏障(一个分层校验,一个是总体校验),因此RAID 6的数据冗余性能相当好。如果一个物理磁盘出现故障,该磁盘上的数据可以重建到更换磁盘上。这种 RAID 模式最多允许两个磁盘出故障而不丢失数据,而且它能更快地重建故障磁盘上的数据。但是,由于增加了一个校验,所以写入的效率较RAID 5还差,而且控制系统的设计也更为复杂,第二块的校验区也减少了有效存储空间。


  • DD-RAID和普通RAID的区别
    • Only support full stripe write, no small write issue 仅支持全条带写,没有小文件问题
    • Provide stripe head unit to check stripe data correctness 拥有条带头来验证条带数据的正确性

  • DD-RAID中的一些概念



                  


    • MG (Meta Group), DG (Disk Group), Partition, Array, Stripe, Stripe Unit

MG(Meta Group)是指在DDOS中由不同的DG(disk group)组成的一个用户数据存储空间。一般在DataDomain上只有一个MG,当存在archive tier的时候,active tier和archive tier会被分成两个不同的MG.

DG(Disk Group)是由一个扩展柜中14个磁盘组成的,raid6也是建立在DG的基础上的,可以简单的把一个DG理解成一个raid6. 一个DG中有两块校验盘来保证数据的完整性。

Array是一个物理概念,就是指16个盘的扩展柜组成的。

Partition是指在一个DG(Raid 6)上,对于raid做出不同的分区,起不同的作用。用户数据就是存在partition 5(ppart)上。

Stripe和Stripe unit都是raid中的概念,一个stripe贯穿一个DG中所有的磁盘,而stripe unit就是stripe在单独磁盘上的概念。在此不多赘述。




Stripe和Stripe unit都是raid中的概念,一个stripe贯穿一个DG中所有的磁盘,而stripe unit就是stripe在单独磁盘上的概念。在此不多赘述。

  • DD-RAID parameters
    • Stripe size: specified by User
    • I/O Queue depth: 128 (default value)
    • Maximum MG number: 50
    • Maximum DGs in MG: 16
    • Maximum Disks in DG: 32
    • Maximum Disks in Array: 16
    • Maximum Disks in DDR: 900

      另外再在这里补充一点磁盘状态的信息说明,供大家在日常工作中参考:

       SE@DD990## disk show state

Enclosure   Disk

             1 2  3  4 5  6  7 8  9  10 11 12 13 14 15

--------- ----------------------------------------------

1            . .  .  s

2            . .  .  . .  .  . .  .  . .  .  . .  s

3            . .  .  . .  .  . .  .  . .  .  . s  .

4            . .  .  . .  .  . .  .  . .  .  . .  s

5            . .  .  . .  .  . .  .  . .  .  . .  s

--------- ----------------------------------------------

Legend   State          Count

------   ------------   -----

.        In Use Disks   59

s        Spare Disks    5

------   ------------   -----

Total 64 disks                 

  • In use (.), this disk is in a DG and has been assembled successfully.
  • Foreign (o), this disk is in a DG but not belongs to this head-unit.
  • Available (v), this disk is in a DG but has not been assembled yet.
  • Unknown (U), no available raid superblock information on the disk.
  • Known (K), disk is in DG and cannot be reassembled.
  • Absent (A), no disk in specified slot.
  • Spare (s), this disk is a spare disk.
  • Failed (F), this disk is a Failed disk.
  • Reconstruction (R), spare disk under reconstruction.

177 消息

2016年11月24日 18:00

Hello,

我想问下对于Data moain而言,VTL和DDboost各自的优势而言在哪里呢?

比方针对大型文件服务器,oracle级别的备份,VTL和boost的各自区别在哪里?

5 Practitioner

 • 

274.2K 消息

2016年11月24日 19:00

VTL的最主要的优势是很多客户还在用传统的磁带库备份,那虚拟带库VTL就可以做到无缝的迁移,来代替物理的磁带库。

DDBoost的备份分别可以用于IP网络和FC网络之上,在规划的时候灵活性更佳。另外可以在备份时进行源端的消重,大大节约网络带宽的使用量。

对于大型的Oracle级别的备份,实际使用上区别并不大,主要看客户的网络规划和环境。

177 消息

2016年11月24日 23:00

hello:

我想问下Data Domain的重删比和压缩是一个概念么?

那个post-comp是不是指两者结合呢?

这个post-comp受到什么影响?

6 消息

2016年11月25日 00:00

Hi, 您好,

DD的消重(Global Compression)和压缩(Local Compression)是两个不同的操作.

正如您所提到的, Post-Comp的值其实是两者的结合: 消重比 x 压缩比 = 最终消重率;

  • 全局消重是指文件系统将写入的文件进行切片, 并检测所有的碎片, 去除重复的部分;
  • 而本地压缩是指基于消重之后, 将系统中剩余的碎片进行压缩 (默认基于lz算法);

每一个写入DD的文件都会先进行消重,然后在进行压缩,最终存放于DD上.

Post-Comp的值一般受到以下情况影响:

  1. 文件的类型, 有些文件本身几乎不包含重复数据, 因此难以被很好地消重, 比如DataBase的archive log
  2. 备份软件的设置: 比如当备份软件开启了加密之后, 写入DD的数据将无法被很好地消重, 而当备份软件开启压缩的话DD本身的本地压缩率将受到影响
  3. VTL的tape marker设置与实际备份软件不匹配

更加详细的介绍请参见以下KB:

306117 : Compression FAQ

https://support.emc.com/kb/306117

306103 : How To Determine Compression Rates 

https://support.emc.com/kb/306103

28 消息

2016年11月25日 07:00

请问DD的压缩格式是这样?

那么请问这个格式可以中途更改么?

第一个选项是NONE是不是意味着我选了这个就不能源端消重复或者没有压缩了呢?

kkkh.JPG.jpg

6 消息

2016年11月27日 16:00

您好,

压缩算法是可以修改的, 除了您图中的方法(管理界面更改), 也可以通过以下命令来更改DDR中使用的本地压缩算法:

#filesys option set compression {none | lz | gzfast | gz}

# 注意: 该操作需要重新启动文件系统

通常情况下, 压缩率的排序如下:

lz < gzfast < gz

不同压缩算法的区别是:

  • 将lz改为gzfast将提供大约15%更好的压缩率, 但是会多消耗2倍的CPU
  • 将lz改为gz将提供大约30%更好的压缩率, 但是会额外消耗5倍CPU
  • 将gzfast改为gz将提供大约10-15%更好的压缩率

请注意,更改本地压缩算法后,之后写入DataDomain的新数据将以新的压缩算法来进行本地压缩。对于已经存在DD上的旧数据会暂时保留其以前的压缩方式,直到下一个文件系统清理(Filesystem clean)完成. 下一个清理期间, 文件系统将把所有的旧数据转换成新的压缩格式。这将导致清理运行时间更长,占用更多的CPU。

找不到事件!

Top