Dell Unity:由于日志膨胀(/nbsnas 分区变满 100%,SP 可能会进入服务模式)
Summary: 由于日志膨胀,阵列可能会进入服务模式(数据不可用)(戴尔可纠正)
Symptoms
对于双 SP 阵列,存储系统的一个 SP 进入服务模式,整个系统无法通过管理界面(包括 CLI、UI、REST API 和 SMI-S)进行作。这也可能表现为 SP 交替重新启动,直到两个 SP 最终都进入服务模式。
两个 SP 都处于服务模式的 Unity 阵列将不会为 I/O 提供服务,因此这将是数据不可用 (DU) 的情况。
对于 VSA,单个 SP 可能会重新启动并进入服务模式,或者只是保持正常模式,从而在任一情况下失去管理。
整个系统无法通过管理界面(包括 CLI、UI、REST API 和 SMI-S)进行作。
SSH 或 IPMI 应该可以正常工作。IPMI 始终正常工作,SSH 可能仅在阵列稳定后才能工作。
此问题在 OE 版本 4.0.0.x 中发现,并在 OE 版本 4.0.1.x 中得到修复。
Cause
日志文件 /nbsnas/http/logs/mod_jk.log 记录来自 UI 和 REST 的每个请求,驻留在主 SP 的 /nbsnas 上装载的文件系统中。如果没有日志轮换机制,此文件的膨胀会继续占用文件系统的可用空间。文件系统上没有剩余空间后,其他内部使用者开始出现故障。当检测到这些组件重复出现故障时,其中一个 SP 会进入服务模式。
在实验室中观察到,当发生这种情况并且服务尝试故障切换到辅助 SP 时,它也会遇到相同的症状。SP 交替重新启动几次,最终都进入服务模式。
客户在以下情况下会遇到此问题:始终使用 UI 或 REST API 配置存储系统,或者在浏览器中打开 UI 并保留在此处而不关闭。仅使用 UI 访问时,客户通常需要几个月的时间才能看到此问题。如果客户频繁使用 REST API 从存储系统查询数据,则此问题发生得更快。
在第二个问题中,升级到 Unity OE 4.0.1.8320161 可能会加剧问题,因为它可能会在 NDU 期间复制相关日志文件,从而加快该过程。
您可以通过检查 /nbsbas上的空间消耗来确认是否是。如果空间消耗最少或很低,则您在无中断升级期间 不会 遇到此问题,因此无需其他任何作。
4.0.1.x 代码已包含主要问题的修复程序,因此日志轮换本身正常工作。
如果分区显示非常高的已用百分比,则可能需要删除负责的日志文件(需要戴尔支持)。
有关如何检查空间使用情况以及要删除哪些日志的示例,请参阅注释部分。
戴尔已决定从 support.emc.com 中删除适用于 Unity 和 UnityVSA 的 Unity OE 4.0.1.8320161。修订版 Unity OE 版本 (4.0.1.8404134) 于 2016 年 9 月发布。
Resolution
要解决此问题,技术支持部门必须获得对阵列的 root 访问权限。
请联系 Unity 技术支持,并提及以下知识库文章:489057
Additional Information
如何检查空间使用情况的示例:
spX:~> df -h /nbsnas Filesystem Size Used Avail Use% Mounted on /dev/c4nasdba1 1013M 55M 908M 6% /nbsnas
导致此问题的日志可在 /nbsnas/http/logs 中找到:
spx:~> cd /nbsnas/http/logs spx:/nbsnas/http/logs> ll -h total 975M -rw-r--r-- 1 root root 12K Sep 8 13:32 access_log -rw-r--r-- 1 root root 165K Sep 8 08:45 access_log.1.gz -rw-r--r-- 1 root root 239K Sep 8 06:59 access_log.2.gz -rw-r--r-- 1 root root 1.6M Sep 8 13:32 error_log -rw-r--r-- 1 root root 167K Sep 3 04:56 error_log.1.gz -rw-r--r-- 1 root root 495M Sep 8 13:32 mod_jk.log <<<<<<<<<< -rw-r--r-- 1 root root 475M Sep 8 08:45 mod_jk.log.1 <<<<<<<<<<
svc_dc -lcd(列出核心转储)也可能显示一些带有“_mgmtd”后缀的转储。
这些是在 SP 崩溃时创建的,因为某些服务无法启动(由于 /nbsnas 已满)。
spx:/> svc_dc -lcd ======================== [DC copier]: Available on backend: CP_dump_spb_CKM00161701xxx_2016-09-08_13_29_47_17275_ECOM core-dump_dump_spb_CKM00161701xxx_2016-09-08_08_46_23_778_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_18_19_11994_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_18_53_21524_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_41_05_11446_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_41_45_24620_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_13_28_30_3067_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_13_29_08_15086_mgmtd