Avamar:作系统 (OS) 容量(解决方案路径)
摘要: 此解决方案路径文章用于处理 Avamar 上的作系统 (OS) 容量问题或对其进行故障处理。
症状
如何处理 Avamar 上的作系统容量问题或对其进行故障处理。
此解决方案路径文章旨在解决 Avamar 上的作系统容量问题或对其进行故障处理。
有关初始概念并了解作系统容量,请参阅培训文章 Avamar:容量管理概念和培训
如培训文章中所述,应合理了解以下主题,才能继续阅读本文的其余部分:
- 基本了解检查点 (cp)、检查点验证 (
hfscheck)和垃圾数据收集 (GC),以及每个 - 两者的区别
GSAN(又称“用户容量”和作系统容量) - 检查点开销数据
- 如果任何数据分区超过总物理作系统容量空间的 89%,则垃圾收集无法运行。
- Avamar 网格越接近 100% 用户容量,可用于检查点开销的作系统容量就越少。
- 影响检查点开销的因素,包括异步处理、存储的检查点数量、
HFSCheck和检查点验证重要性等。 - 如何查找作系统容量级别
- 缓解作系统容量问题的基本措施
通常最简单的方法是将作系统容量视为 GSAN 数据(更具体地说,为此数据分配的空间)以及 Avamar 检查点产生的开销。检查点数量越多,更改率越高,检查点开销就越高。
高作系统容量的影响可能包括:
- 垃圾数据收集失败:GC 失败并显示MSG_ERR_DISKFULL 如果作系统容量上升到 89% 以上
- 备份或复制失败: 如果作系统容量上升到 90% 以上,备份或传入复制可能会失败并显示MSG_ERR_STRIPECREATE。(仅当必须创建新的数据条带时才这样做。如果不需要新的条带,备份和复制仍可能成功运行。)
- 检查点故障:如果作系统容量上升到 96% 以上,则检查点将失败并显示MSG_ERR_DISKFULL
如上所述,当其他 Avamar 容量也很高时,作系统容量通常是第一种需要解决的 Avamar 容量类型。至少,当作系统容量达到特定级别时,即使 GSAN 或者用户容量也很高。
通常,当 GC 失败且 OS 容量超过 89% 时,MSG_ERR_DISKFULL 将 OS 容量视为较高。如果作系统容量完全低于 89%,则不会影响任何维护作业。
原因
由于以下原因的任意组合,Avamar作系统容量可能会增加:
- 备份数据更改率高,添加“太多太快”
- 高
GSAN或“用户容量”,它为作系统容量留出的空间较小,有时甚至会导致更高的更改率 - 检查点未能成功完成,这会导致输出中显示的“MSG_ERR_DISKFULL”状态。
- 检查点验证 (
hfscheck)失败或最近未运行,因此最旧的检查点无法滚出或删除 - 由于其他原因(包括检查点保留设置过高),检查点未滚存
其他磁盘分区上的高作系统容量可能由多种原因引起,包括数据放置不正确、日志文件变得过大等。
- 简单介绍一下背景信息,Avamar 检查点是只读快照和实时数据链接。由于这是使用链接创建的,因此检查点在创建后会立即使用零额外的磁盘空间。如果实时数据没有更改,则检查点不会使用额外的空间。
- 当修改实时数据而检查点保持不变时,这种情况会发生变化。此时,检查点中有数据的原始副本和已修改数据的更新实时副本。这完全是故意的。这就是保留作系统容量空间的原因。
- 但是,如果更改数据的数量或速率突然大幅增加,这可能会导致作系统容量大小出现罕见的峰值,并被视为“太多太快”
- 而
capacity.sh在比较几天的输出时,工具会将此显示为原因。
解决方案
如果维护作业(包括垃圾数据收集)因 Avamar OS 容量高而失败,请执行以下步骤:
1.收集所有 Avamar 容量信息以描绘情况:Avamar:如何收集对容量问题进行故障处理所需的信息。
2.接下来,查看作系统容量有多高以及可能需要执行哪些作。在数据收集文章中,可以使用以下命令找到此信息:
avmaint nodelist | egrep 'nodetag|fs-percent-full'
Avamar 的工作原理是,显示的 fs-percent-full 的最高值是当前作系统容量的限制因素。根据节点类型代系和大小,存储备份和检查点数据的数据分区数量可能会有所不同。从 Linux作系统可以看出,这些可能是磁盘或分区,例如“/data0*”,其中“*”可以是一个数字。数据分区的数量取决于节点类型、硬件代系和大小(并且无法更改)。
3.查看找到的检查点数量以及最近通过命令验证这些检查点的时间:
cplist
cp.20290310080041 Mon Mar 10 08:00:41 2025 valid rol --- nodes 4/4 stripes 5980
cp.20290310080649 Mon Mar 10 08:06:49 2025 valid --- --- nodes 4/4 stripes 5980
4.通过运行以下命令,验证检查点作是否从“MSG_ERR_DISKFULL”失败:
dumpmaintlogs --types=cp --days=4 | grep "\<430"
如果检查点成功完成,则会看到类似于以下内容的输出:
2020/03/07-08:00:39.51323 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/07-08:01:31.49490 {0.0} <4301> completed checkpoint maintenance
2020/03/07-08:07:47.36128 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/07-08:08:29.40139 {0.0} <4301> completed checkpoint maintenance
2020/03/08-08:00:39.93332 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/08-08:01:29.50546 {0.0} <4301> completed checkpoint maintenance
2020/03/08-08:06:45.37918 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/08-08:07:27.36749 {0.0} <4301> completed checkpoint maintenance
2020/03/09-08:00:36.57433 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/09-08:01:24.22214 {0.0} <4301> completed checkpoint maintenance
2020/03/09-08:06:40.52884 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/09-08:07:22.18463 {0.0} <4301> completed checkpoint maintenance
2020/03/10-08:00:39.83562 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/10-08:01:31.87814 {0.0} <4301> completed checkpoint maintenance
2020/03/10-08:06:48.27867 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/10-08:07:29.95640 {0.0} <4301> completed checkpoint maintenance
如果由于MSG_ERR_DISKFULL而失败,则会看到以下输出:
2020/03/07-08:00:39.51323 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/07-08:01:31.49490 {0.0} <4301> failed checkpoint maintenance with error MSG_ERR_DISKFULL
2020/03/07-08:07:47.36128 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/07-08:08:29.40139 {0.0} <4301> completed checkpoint maintenance
2020/03/08-08:00:39.93332 {0.0} <4300> failed checkpoint maintenance with error MSG_ERR_DISKFULL
2020/03/08-08:01:29.50546 {0.0} <4301> completed checkpoint maintenance
2020/03/08-08:06:45.37918 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/08-08:07:27.36749 {0.0} <4301> completed checkpoint maintenance
2020/03/09-08:00:36.57433 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/09-08:01:24.22214 {0.0} <4301> completed checkpoint maintenance
2020/03/09-08:06:40.52884 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/09-08:07:22.18463 {0.0} <4301> completed checkpoint maintenance
2020/03/10-08:00:39.83562 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/10-08:01:31.87814 {0.0} <4301> completed checkpoint maintenance
2020/03/10-08:06:48.27867 {0.0} <4300> starting scheduled checkpoint maintenance
2020/03/10-08:07:29.95640 {0.0} <4301> completed checkpoint maintenance
cplist c奥曼德 显示找到的检查点数量以及检查点的验证时间。如数据收集一文中所示,请使用 《Avamar — 如何理解 cplist 命令生成的输出》以了解 cplist 输出。
应该有两个或三个检查点,并且过去 24 小时内的检查点中至少有一个显示为已验证
hfscheck。这将是所有成功运行的作业的正常行为和输出,以及正常的检查点保留设置。
如果存在三个以上的检查点,或者在过去 24 小时内没有经过验证的检查点,则必须先解决此问题,因为这可能是减少作系统容量的唯一方法。如果遇到这种情况,请向 Dell Technologies 提出服务请求 ,否则从步骤 6 继续。
6.确定更改率:
capacity.sh
示例输出:
DATE AVAMAR NEW #BU SCANNED REMOVED MINS PASS AVAMAR NET CHG RATE
========== ============= ==== ============= ============= ==== ==== ============= ==========
2020-02-25 1066 mb 8 302746 mb -641 mb 0 23 425 mb 0.35%
2020-02-26 1708 mb 8 303063 mb -518 mb 0 23 1189 mb 0.56%
2020-02-27 3592 mb 8 304360 mb -413 mb 0 23 3178 mb 1.18%
2020-02-28 1086 mb 8 304892 mb -372 mb 0 23 713 mb 0.36%
2020-03-01 1002 mb 8 305007 mb -7469 mb 0 25 -6467 mb 0.33%
2020-03-02 585 mb 7 197874 mb 0 mb 0 9 585 mb 0.30%
2020-03-03 348 mb 7 199305 mb 0 mb 0 10 348 mb 0.17%
2020-03-04 775 mb 7 198834 mb -2 mb 0 10 773 mb 0.39%
2020-03-05 380 mb 4 196394 mb -5 mb 0 10 375 mb 0.19%
2020-03-06 1068 mb 4 159960 mb 0 mb 0 9 1067 mb 0.67%
2020-03-07 443 mb 4 197132 mb -18 mb 0 17 424 mb 0.23%
2020-03-08 348 mb 4 197231 mb -48 mb 0 20 300 mb 0.18%
2020-03-09 370 mb 4 196506 mb 0 mb 0 9 370 mb 0.19%
2020-03-10 349 mb 4 197292 mb -17 mb 0 20 332 mb 0.18%
2020-03-11 974 mb 2 77159 mb 0 mb 0 0 974 mb 1.26%
=============================================================================================
14 DAY AVG 940 mb 5 222517 mb -634 mb 0 15 306 mb 0.42%
30 DAY AVG 1121 mb 5 195658 mb -771 mb 0 14 349 mb 0.59%
60 DAY AVG 994 mb 4 128657 mb -1165 mb 0 17 -170 mb 0.98%
Top Change Rate Clients. Total Data Added 14103mb
NEW DATA % OF TOTAL CHGRATE TYPE CLIENT
============= ========== ======= ====
6803 mb 48.24 0.91% AVA /Windows/testing/Hyper-V/hyperv1
3218 mb 22.82 0.61% AVA /clients/exchange1
2932 mb 20.80 0.44% AVA /BMR/server1
983 mb 6.97 0.10% AVA /Windows/testing/SQL/sql1
97 mb 0.69 1.13% AVA /REPLICATE/grid2.company.com/MC_BACKUPS
有时,如果高变化率或“太多太快”的情况再次出现,可以通过降低整体变化率来缓解这种情况 GSAN 或用户容量。使用较低的 GSAN 容量,则作系统容量开销的空间更大一些,同时还会导致数据存储容器更改更少。要获得此情况的帮助,请向 Dell Technologies Avamar 支持团队 提出服务请求 ,否则从步骤 7 继续。
7.其他磁盘分区上的高作系统容量问题有多种原因,但这些解决方案需要技术支持。向 Dell Technologies Avamar 支持团队创建服务请求,否则从步骤 7 继续。
解决作系统容量问题后, GSAN 可以查看容量或其他 Avamar 容量。请参阅 Avamar 容量故障处理、问题和疑问 — 所有容量(解决方案路径)