Data Domain:当缓存元素池中的内存不足时,FS 在信息节点高速缓存中处理 PANIC
摘要: 在某些最近的 DDOS 版本(在 7.7.4、7.9.0.10 和 7.10.0 中已确认)中发现了一个缺陷,如果影响 DDOS 7.7.3,则该缺陷可能在信息节点高速缓存代码中发生 FS 进程死机(如果影响 DDOS 7.7.3,则该缺陷可疑),当缓存元素池因工作负载而耗尽内存以进行进一步分配时,信息节点高速缓存代码中可能会发生 FS 进程死机。
本文适用于
本文不适用于
本文并非针对某种特定的产品。
本文并非包含所有产品版本。
症状
此问题没有降级或高级警告,这将以 FS 进程故障 (PANIC) 的形式表现出来,之后,进程将重新启动并自动再次正常运行。
由于正在练习代码路径,FS 进程可能以几种不同的方式死机,包括:
由于正在练习代码路径,FS 进程可能以几种不同的方式死机,包括:
PANIC: ddr/sm/ddfs/ddfs_mtree.c: ddfs_mtree_list: 829: !((dd_errno(e) == ENOENT) || (dd_errno(e) == DD_ERR_FM_EATTRNOENT) || (dd_errno(e) == DD_ERR_STALE)) PANIC: ddr/fv/file_verify.c: file_verify_update_marker_attrs: 4872: Fatal Error PANIC: ddr/fv/file_verify.c: file_verify_update_snap_attr: 4446: Fatal Error PANIC: ddr/fv/file_verify.c: file_verify_update_marker_attrs: 4860: Fatal Error
在 FS 进程日志文件 (ddfs) 中。info)在每次流程崩溃之前,将找到以下消息:
01/17 20:21:59.292947 [7fbbf4f98f50] dd_cache_elem_reclaim: Evict count=256, Visited count=257, Skipped elem count=0, Skipped bucket count=0, Time threshold=1539816333626910. (99% full) Complete=True 01/17 20:22:04.662303 [7fbb031ad4f0] ERROR: FM fm_iget:355 - fm_iget failed to allocate elem in dd_cache 5001
指示内部进程已满 99% 的消息,然后无法分配任何进一步的元素,从而导致进程崩溃。
提醒:已知此问题仅影响以下版本:
- DDOS 7.7.3.x:未完全确认
- DDOS 7.7.4.x
- DDOS 7.9.0.10
- DDOS 7.10.0.x
原因
对于读/写等任何文件操作,将从dd_cache元素池分配信息节点结构。
如果此高速缓存已满,并且有新的请求进来,则将从此缓存中回收一个元素,并满足新请求。
此回收基于时间策略(如果元素在过去“x”秒内未被访问,则会被逐出)。
如果此高速缓存过热(所有元素都在过去“x”秒内被访问),并且即使在多次重试后也无法回收任何元素,则fm_iget返回DD_ERR_NOMEM。
此元素池分配的某些调用者将无法正常处理错误,因此导致 FS 进程为 PANIC,转储核心应“fm_iget”返回任何错误。这就是为什么有几个与底层代码缺陷对应的不同 PANIC 签名的原因。
如果此高速缓存已满,并且有新的请求进来,则将从此缓存中回收一个元素,并满足新请求。
此回收基于时间策略(如果元素在过去“x”秒内未被访问,则会被逐出)。
如果此高速缓存过热(所有元素都在过去“x”秒内被访问),并且即使在多次重试后也无法回收任何元素,则fm_iget返回DD_ERR_NOMEM。
此元素池分配的某些调用者将无法正常处理错误,因此导致 FS 进程为 PANIC,转储核心应“fm_iget”返回任何错误。这就是为什么有几个与底层代码缺陷对应的不同 PANIC 签名的原因。
解决方案
在以下版本中使用 DDOS-168410 (以及同一代码分支中的所有更高版本)修复导致这些 FS 进程崩溃的基本代码问题:
如果运行有问题的版本(上面列出的版本),但您没有遇到意外的 FS 流程崩溃,但与本知识库中的症状相匹配,我们建议不要主动应用该解决方法,而是升级到上述任何固定版本(或其任何后续版本)以利用最新的更新和代码修复。
- DDOS 7.7.5.1
- DDOS 7.10.1.0
- DDOS 7.11.0
如果运行有问题的版本(上面列出的版本),但您没有遇到意外的 FS 流程崩溃,但与本知识库中的症状相匹配,我们建议不要主动应用该解决方法,而是升级到上述任何固定版本(或其任何后续版本)以利用最新的更新和代码修复。
受影响的产品
Data Domain文章属性
文章编号: 000207919
文章类型: Solution
上次修改时间: 21 12月 2023
版本: 17
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。