未解决
此帖子已超过 5 年
Community Manager
•
6K 消息
0
1133
备份性能有问题?看EMC技术大牛如何逐个排查原因(下)
DD VTL备份速度慢?也许你错怪它啦。上一篇的内容中,EMC技术大神Jim列出了影响备份性能的多种原因,从存储节点到VTL的数据流,各个流程都可能影响备份速度。今天我们把剩下的内容讲完,看看通信协议是否也会影响性能,以及从Data Domain本身找找原因。
文/EMC备份恢复远程支持部 Jim
TCP/IP网络方面,我们可以增加TCP window size 和buffer size来提升数据在网络传输过程中的吞吐量:
∧∧向上滑动浏览∧∧
- Oracle Solaris
- tcp_default_mss-recommend is 1500 MTU
- tcp_sendspace-changed to 16KB or 32KB
- tcp_recvspace-changed to 16KB or 32KB
- 设置TCPIPWINDOW SIZE 63k 或者更高
- 编辑文件in_proto.c 来调整下面的buffer size
- AIX-no(network option)-我们可以使用’no’命令来调整网络参数
- § lowclust = 200
- § lowmbuf = 400
- § thewall = 131072
- § mb_cl_hiwat = 1200
- § sb_max = 1310720
- § rfc1323 = 1
- Use no –a to view current settings
- When using TCP window sizes ≥ 64, set rfc1323 to 1
- Here are the recommended values for the parameters described in this section
- Windows Platform
- WIN2008: [HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters] Tcp1323Opts,REG_DWORD, 3
- WINXP/2K3: [HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters] DefaultSendWindow"=dword:1048576
DefaultReceiveWindow"=dword:1048576GlobalMaxTcpWindowSize"=dword:1048576
TcpWindowSize"=dword:1048576 Tcp1323Opts"=dword:3
Linux-Check with “cat /proc/sys/net/ipv4/tcp_window_scaling” ,默认值应该大于64KSAN网络方面:
- 首先需要排除的是有没有物理端口或光纤问题。例如我们可以用交换机的命令查看“porterrshow”-是不是哪个SFP有错误,比如’crc error’等物理错误计数。如果你看到哪个口错误比较多的,还可以看看光强度是不是够,这个可以用令’sfpshow’查看(brocade),建议值是大于-7dbm。
- 备份服务器和VTL是否跨多个交换机?建议不要超过3台交换机。另外,特别重要的是ISL带宽够不够用,备份数据流就像运矿的车,不但体积大而且源源不断的在跑运输,所以马路宽不宽也很重要。
- 长距离传输的话需要增加交换机的B2B credit buffer,这个就相当于tcp window size,一次传的数据大一点,可以免去在路上往返的开销。
- 我们建议主机那边的光口只连接到VTL,不能共享,这个也可以避免出现意外的通讯故障。
- Slow drain device-我们称之为累赘型设备。比如8G的SAN网络里连接了2G的节点,慢的设备会成为瓶颈所在,因为它处理数据很慢,其他设备都会因为等待它的回应而造成整体性能的下降。
- Zoning的配置很重要,多个initiator放在一个zoning 有时候会造成性能问题,因为他们彼此会尝试握手建立连接,但是永远不成功,所以对性能会有些许的影响。
最后,说一下DD本身到底什么情况下会影响性能:
- DD本身有硬件问题,比如硬盘或者内存的问题。
- 在出现坏的硬盘以后,RAID在数据重建,这个往往会消耗很多系统资源。
- 垃圾回收和复制同时运行,因为他们会占用很多资源,导致备份速度下降。我们建议备份窗口不要和它们重叠。
- 系统空间是不是超过了85%,系统空间越满,DD会占用约多时间来查找数据唯一性。
- VTL 的光口有没有负载均衡。
- VTL没有被充分利用,可以增加并发数据流来提高整体吞吐量。
- DD过于繁忙,没有过多资源来进行快速IO处理。我们可以用命令’iostat 2’来监控。
本次就聊到这里,对于DD虚拟带库的性能问题概括起来就是先排除DD本身有没有问题,比如硬件问题,空间使用情况,系统资源负载情况,光纤口有没有做到负载均衡。所有其他的瓶颈都是DD以外的,最直接的就是磁带设备的block size是不是大于256k。光纤网络有没有性能和配置问题以及备份主机的压力情况等等。总而言之,顺着单向的数据流一个个节点排查就是了。