Data Domain:Data Domain Virtual Edition 性能故障处理
Summary: 适用于对与 Data Domain Virtual Edition 和 Data Domain 管理控制台的底层虚拟机管理程序、云 IAAS 提供程序或主机存储系统相关的性能问题进行故障处理的有用指南。
Instructions
虚拟机托管设备网络和连接:
以太网 I/O:
将以太网聚合用于到主机设备的数据传输连接时,您不能假设以太网聚合配置的存在可以正确平衡负载。应采用适当的负载平衡技术和带宽,以确保虚拟机托管设备的 I/O 不受限制。
从虚拟机托管设备到磁盘存储的连接:
连接类型和协议对 DDVE 虚拟机的性能有巨大影响。此处列出了虚拟机托管设备和磁盘存储之间最常用的连接类型。选项 1 提供了最佳的性能水平,而选项 5 是最差的连接选项。此外,HBA 写入高速缓存设置也会极大地影响主机设备与磁盘存储之间的性能。我们建议应在 HBA 上启用写入高速缓存,以确保主机设备与磁盘存储之间的最佳性能。
- 直连存储 - RAID 5 或 RAID 6 中的 SAS 磁盘/SSD + 已启用 HBA 写入高速缓存(首选,可获得最佳性能)
- 直连存储 - 没有 RAID 的 JBOD + 已启用 HBA 写入高速缓存(性能可接受,但缺乏建议的 RAID 保护)
- FC 连接的外部 RAID 存储(主动/主动,16 GB 或更快)(性能可接受,但可能受 FC 性能限制)
- iSCSI 10G(外部磁盘存储)(不推荐)
- NFS 10G(外部磁盘存储)(不推荐)
检查物理存储阵列、统计信息和性能:
磁盘质量 vs 磁盘大小 vs 磁盘数量:
与较小的驱动器相比,密度较高的驱动器(例如 4+ TB)每 TB 的 IOPS 更少。因此,部署在更多小 TB 驱动器上的 DDVE 比部署在几个大 TB 驱动器上的 DDVE 性能更快。这是因为 DDVE 高度依赖于随机读取性能。DDVE 的正常工作负载会使物理磁盘大小和物理磁盘数量之间的斗争更加明显,因此请尽量确保您的存储系统达到良好的平衡,并符合相应的《DDVE 最佳实践指南》中规定的期望值。在本文中,我们不会重点讨论单个物理硬盘和 SSD 类型及其性能。此信息可从磁盘制造商处获得。我只想说,物理磁盘性能越高,DDVE 虚拟机的性能就越好。
存储故障处理:
验证与您的 DDVE 虚拟机关联的物理磁盘的延迟情况。
对于 VMware,这可以通过选择您的虚拟机,选择 Performance 选项卡,然后从下拉列表中选择 Datastore 来实现。它会显示特定 DDVE 虚拟机的所有相关数据存储区。最后,选择 Advanced 按钮,从而以图形方式详细显示与您的 DDVE 虚拟机关联的数据存储区的延迟情况。

图 1:数据存储区性能
要确定数据存储区的 I/O 负载,请计算数据存储区正在处理的 IOPS。
从与之前相同的图表开始,但选择 Chart Options,清除 Write latency and Read latency,然后选择 Average read requests per second 和 Average write requests per second 这两个值。生成的图表会向您显示数据存储区正在执行的 IOPS 数量,它可以让您了解 DDVE 存储“设备”对数据存储区造成的总体负载。此外,此输出有助于区分数据存储区是否还承载着来自非 DDVE 应用程序的工作负载。

图 2:图表选项
要更加详细地了解 IOPS,请查看读/写比率。
按照设计,DDVE 从磁盘存储中读取的次数通常是写入次数的 2-4 倍。例外情况是在备份的第 0 代(播种)期间,此时会写入全新数据,并且无法消除重复数据。由于上述原因,DDVE 使用的物理存储必须能够高效地处理 Data Domain 文件系统中主要以读取为中心的混合型随机工作负载。
与写入相比,物理磁盘存储阵列(SSD、磁盘等)在高效处理读取方面表现出截然不同的能力。物理磁盘存储系统提供卓越的随机读取 IOPS 性能以及较低的延迟(低于 40 毫秒)的能力,是决定数据存储区是否满足 DDVE 虚拟机可接受的性能特征的最关键因素。
如果您需要对存储阵列或数据存储区性能进行更深入的调查,则应使用名为 vscsiStats 的命令行工具。有关如何利用 vscisistats 获取数据块大小、延迟和更详细的读/写性能统计信息的更多详细信息,请咨询 VMware 支持。
验证资源调配是否满足 DDVE 的要求:
DDVE 虚拟机性能问题的原因通常可归咎于某些限制 DDVE 虚拟机可用资源的配置设置。一般来说,具有限制的资源池只会限制 DDVE 虚拟机的整体性能,因此我们不建议使用它们。相反,有一些资源预留,可提高 DDVE 虚拟机的整体性能。当您为获得出色性能而部署、故障处理或调整 DDVE 虚拟机时,请始终参阅《DDVE 最佳实践指南》和《管理指南》进行配置。
通过选择 Resource Allocation 选项卡,开始验证资源分配情况。接着,从虚拟机池中选择您要进行故障处理的 DDVE 虚拟机。在 View 部分中,选择 CPU,然后检查该池中的所有虚拟机(假设有问题的虚拟机也在其中)。确保将“Limit MHz”设置为 Unlimited 值。我们不建议限制 DDVE 虚拟机的 CPU 资源,限制资源将会导致性能下降。

图 3:资源分配
继续验证分配给 DDVE 虚拟机的内存资源。验证内存资源是否已正确“保留”并设置为 Unlimited,以确保最佳性能。我们不建议对 DDVE 的内存分配设置限制,设置限制将会导致性能下降。

图 4:内存资源
在“Storage”选项卡下,验证是否对存储 IOPS 没有任何限制。选择 Storage 按钮并查看磁盘/数据存储区。与 DDVE 虚拟机关联的每个磁盘的“Limit-IOPS”值必须设置为 Unlimited 值。

图 5:存储资源
对于已经提到的三个资源类别,请记下 % shares 值。% shares 值指示该特定虚拟机从整个资源池中提取的份额百分比。“Shares values”是相对值,而不是绝对值。但是,请确保池中所有设备的值之间没有太大差异。例如,1000、2000 或 3000 是可以预料的,但 10、5、4000 等数值则表明存在不正常的差距,资源共享不平等。如果任何单个虚拟机的值相差很大,您必须考虑修改“shares value”设置。
检查 DDVE 虚拟机的性能统计信息:
高效运行的 DDVE 虚拟机需要不受限制地访问资源,以确保卓越性能。DDVE 将会大量使用内存和 CPU,因此您不能对其进行限制,否则会出现问题。DDVE 虚拟机投入生产后,我们可以利用 Performance 选项卡下的图形和图表来评估其资源使用情况。我们可以使用这些来确定它的工作效率。
CPU
选择要对其进行故障处理的 DDVE 虚拟机。接着,选择 Performance 选项卡。在显示 switch to 的地方,从下拉列表中选择 CPU。在此视图中,您可以评估 DDVE 虚拟机正在消耗的 CPU 数量和百分比。如果 DDVE 虚拟机使用的 CPU 在总体资源中所占百分比很高,那么我们就可以认为托管设备可能不适合充分发挥 DDVE 虚拟机的潜力。

图 6:CPU 性能
内存
如果虚拟机看起来响应缓慢,则 CPU 可能存在调度问题。要评估 CPU 效率,请从上一个图表开始,并再次选择 Chart Options。清除所有计数器,然后选择 Ready。这将显示虚拟 CPU 的就绪时间。毫秒值表示虚拟机准备启动的时间,但虚拟机管理程序无法及时将 CPU 分配给任务。为了获得最佳的 DDVE 虚拟机性能,我们希望此值低于 8 毫秒。

图 7:CPU 就绪时间
内存性能和可用性也可能是 DDVE 虚拟机整体性能的限制因素。如果您没有为 DDVE 虚拟机配置其所需的预留物理内存量,则会生成活动警报。通过在 DDVE CLI 上运行 # alerts show current 来检查活动警报,并在必要时解决相关问题。
如果 DDVE 虚拟机没有足够的可用内存资源,那么它会通过将其内存页交换到磁盘来做出响应。这是一种不理想的情况,会导致性能严重下降。要评估 DDVE 虚拟机的活动内存使用情况,请首先选择 Performance 选项卡,然后从 Switch to 框中选择 Memory。
默认情况下,该图表显示“Active memory”、“Granted memory”、“Balloon memory”和“Consumed memory”值。为获得最佳性能,请确保活动内存大约为“Granted memory”值的 35-50%。每当活动内存值接近“Granted memory”值的 60% 时,就会出现 DDVE 虚拟机内部发生交换的情况。

图 8:内存性能
验证 DDVE 虚拟机是否符合“最佳实践”和建议的配置:
对性能问题进行故障处理时,有许多事情需要检查,也有许多日志需要从 DDVE 虚拟机本身进行收集。在打开 DDVE 支持案例之前,首先验证 DDVE 配置是否符合建议的最佳实践和建议的设置。请参阅支持网站上的文档,了解您正在运行的 DDVE 版本和托管平台。
收集性能统计信息:
- 收集以下 CLI 命令和工具的结果,以评估底层磁盘存储,并确保配置符合支持所选 DDVE 容量所需的性能级别。
- ETA 495989:Data Domain Virtual Edition:针对 Data Domain Virtual Edition 磁盘卷运行磁盘分析工具时,可能会发生潜在的数据丢失
- 为连接到 DDVE 的每个磁盘设备执行磁盘评估测试 (DAT)。《DDVE 管理指南》的“性能监控”部分具有关于何时以及如何使用 DAT 工具的详细说明。
- 根据接收的 I/O 类型执行 DAT 测试。如果您主要使用 CIFS/NFS 来写入备份,则应使用
with-vnvram选项。一些用户使用 Boost 执行备份,然后使用 NFS 获取读取访问权限。如果是这样,那么不需要使用with-vnvram标志。 - 云部署的 DDVE(Microsoft Azure、Amazon AWS)不支持使用 DAT 工具。
- 用于收集信息以进行性能故障处理的 DDVE CLI 命令:
#alerts show current#system vresource show required#system vresource show current#storage show all(验证磁盘轴组分配是否符合最佳实践)#cd /ddr/var/log/debug/kern.info/disk_perf/perf.log(查看每个设备的延迟和 IOPS)#system show performance(在正常 DDVE I/O 负载期间,使用最佳语法缩小 CLI 输出视图的范围)#system show perf custom-view protocol-latency duration 1 hr interval 3 min#system show perf custom-view utilization duration 1 hr interval 3 min#system show perf custom-view iops duration 1 hr interval 3 min#system show perf custom-view streams duration 1 hr interval 3 min
#disk show performance <dev2>(可以输入多个设备以获得完整视图)
Disk Read Write Read+Write KiB/sec IOPs Resp(ms) Ops >1s KiB/sec IOPs Resp(ms) Ops >1s MiB/sec IOPs Resp(ms) Random Busy ---- ------------------------------ ------------------------------ ---------------------------------------- ---------------------------------------- ---------------------------------------- dev2 0 0 3.63 0 0 0 7172.87 4801 0.000 0 2486.26 81.64% 0.01% ---- ------------------------------ ------------------------------ ---------------------------------------- ---------------------------------------- ----------------------------------------
- 使用 # vserver CLI 收集 DDVE 性能信息使用 # vserver CLI 收集 DDVE 性能信息
#se # vserverI/O 负载期间的输出。(如果在创建支持包之前配置并启动了 VServer,则输出是支持包上传的一部分。)
SE@localhost## vserver config set host 12x.xxx.90.xx The SHA1 fingerprint for the vServer's CA certificate is D1:71:7C:57:3F:3D:3D:3xxxxxxxxxxxxxxxx Do you want to trust this certificate? (yes|no) [yes]: yes Enter vServer username: xxxxxxxx Enter vServer password:xxxxxxxxxxxx vServer configuration saved. Started periodic collection of DDVE performance information at/ddvar/log/debug/vserver/ddveperf.log
- 创建并上传当前支持包,其中包含
vserver和disk_perf日志。
vserver 或 disk_perf 。您必须以手动方式将这些上传或添加到支持包中。
#support bundle create default#support bundle create files-only /ddvar/log/debug/platform/disk_perf/perf.log#support bundle create default with-files /ddvar/log/debug/platform/disk_perf/perf.log /ddvar/log/debug/vserver/ddveperf.log
有用的视频:
Dell PowerProtect Data Manager - Microsoft Azure 上的部署和配置
持续时间:00:06:06 (hh:mm:ss)
隐藏式字幕:提供多种语言版本。使用“CC”图标和“Settings”图标以更改隐藏式字幕语言。
Dell PowerProtect Data Manager - Amazon Web Services 上的部署和配置
持续时间:00:05:34 (hh:mm:ss)
隐藏式字幕:提供多种语言版本。使用“CC”图标和“Settings”图标以更改隐藏式字幕语言。
Additional Information
用于向 DD 支持部门提交服务请求以排除 DDVE 虚拟机性能故障的模板
虚拟机主机配置
主机制造商、型号、版本和操作系统主机名?
虚拟机管理程序供应商(VMware、Hyper-V 或其他)?
主机 ESXi/Hyper-V 服务器版本和内部版本号?
vSphere 客户端或 Hyper-V Manager 版本和内部版本号?
这是群集配置还是高可用性配置?
最近对主机或虚拟机配置是否进行了任何更改?
您的主机设备是否具有以电池作为后备电源的高速缓存、NVRAM 或其他类型的机制,以便在计划外关机时保留数据?
虚拟机主机存储
存储 RAID 配置和磁盘大小、速度、类型(例如,RAID 6 - 3 TB - 7200 RPM - SATA)?
存储系统连接类型(NFS、FCP、iSCSI、SAS)?
DDVE 使用的存储卷和数据存储区是否与非 Data Domain 工作负载共享?
DDVE 使用的存储是否启用或禁用了写入高速缓存?
最近对存储配置是否进行了任何更改?
您对 DDVE 磁盘设备使用的是厚置备还是薄置备?
Data Domain Virtual Edition 配置
DDVE 操作系统版本和大小(例如,DDVE 3.0 - 6.0.1.10 - 64 TB)?
DDVE 数据传输协议(例如,Boost、NFS、CIFS、NDMP、FCP)?
DDVE 工作负载(例如,云、复制、备份、VTL)?
备份应用程序和插件程序版本?
详细的问题描述
网络:
性能:
安装和配置:
DD 文件系统:
数据不可用或数据丢失?
您目前是否与任何其他供应商有与此 DDVE 相关的未结案例?
需要日志
支持包 - #support bundle create default Data Domain:如何从 Data Domain Restorer (DDR) 收集/上传支持包 (SUB)
vserver perf-stats - #support bundle create files-only /ddvar/log/debug/platform/disk_perf/perf.log
disk_perf/perf.log - #support bundle create files-only /ddvar/log/debug/vserver/ddveperf.log
“可选的”VMware 日志包 - 请访问 VMware 自助服务站点以查看文章