Dell Unity:大型或递增的快照队列导致性能问题
Summary: Dell Unity:大型或递增的快照队列导致性能问题和高存储处理器 (SP) CPU
Symptoms
- 恢复点目标 (RPO) 的值被缩减为更激进的值(即 10 分钟)。”
- “恢复点目标 (RPO) 是一个业界认可的术语,它表示在故障情况下可接受的数据丢失量,以时间单位衡量。设置异步复制会话时,您可以根据 RPO 配置自动同步。您可以将 RPO 设置为最短 5 分钟至最长 1440 分钟(24 小时)。默认 RPO 设置为 60 分钟(1 小时)间隔。对于同步复制,RPO 固定为 0。
- LUN 有许多快照处于“正在销毁”状态。
- 处于“正在销毁”状态的快照数量会随着时间的推移而递增。
- 高 SP CPU,没有相关的 IOPS/带宽工作负载。
- LUN 和后端驱动器具有排队和延长的响应时间。
您可以在 Unisphere 中查看“数据块”部分。确保添加“Snapshots”列以获取每个 LUN 的读数。如果您看到为一个 LUN 或多个 LUN 列出了许多快照,则这表示一些事情
转到单个 LUN,然后选择“Snapshots”选项卡以检查“State”(会“destroying”)和“Taken by”(会是“Replication”)以进行确认:
Cause
生成队列的原因可能有很多。其中一个主要原因归因于被认为“过于激进”的 RPO。
本机异步数据块复制:
本机异步数据块复制使用两个快照之间的增量来传输数据。在复制会话生命周期内,传输更改时会发生多次快照“刷新”。
刷新快照时,实际上是在后台删除并重新创建快照。
最值得注意的问题是 SP CPU 消耗和与快照功能相关的额外后端 I/O。
Unity 阵列无法在相对合理的时间内完全删除快照,从而导致进入“待删除”状态的快照速率远远超过给定时间段内快照完全删除的速率。减小 RPO 值会增加给定时间内的快照创建或删除量。
Resolution
对于具有最多快照处于销毁状态的 LUN,请将 RPO 设置为至少默认值(60 分钟),直至快照删除可以赶上。您可能希望将该值保留在这个新的 RPO,具体取决于排队的快照数,并做出相应的判断。
“Dell Technologies 建议在快照处于活动状态的混合池中包含闪存层。
快照会增加系统上的总体 CPU 负载,并增加存储池中的整体驱动器 IOPS。 快照还使用池容量来存储快照跟踪的较旧数据,这会增加池中使用的容量,直至快照被删除。 在规划存储池的性能和容量要求时,请考虑快照的开销。
在存储对象上启用快照之前,建议监视系统并确保现有资源可以满足额外的工作负载要求(请参阅表 2中的“硬件功能指南”部分)。 一次在几个存储对象上启用快照,然后监视系统以确保其仍在建议的作范围内,然后再启用更多快照。
建议错开快照作(创建、删除等)。 这可以通过对不同的存储对象集使用不同的快照计划来实现。 此外,建议将快照作安排在任何 FAST VP 重新放置完成后进行。
系统异步删除快照;当快照正在被删除时,它将标记为“Destroying”。 如果系统随时间推移累积“正在销毁”的快照,则可能表明现有快照计划过于激进;降低拍摄快照的频率可以提供更可预测的性能级别。
Dell Unity 将限制快照删除作,以减少对主机 I/O 的影响。 在系统利用率较低期间,快照删除将更快地发生。Dell Unity:妥善做法指南
Additional Information