Data Domain:BoostFS 崩溃或装载点变得无响应

Zusammenfassung: 当备份应用程序在 BoostFS 装载点上执行 I/O作时,BoostFS 崩溃或崩溃或装载点变得无响应。

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Symptome

症状:

  • BoostFS 随机崩溃和死机。当工作负载较高时,会发生这种情况。
  • 备份应用程序执行延迟 READWRITE BoostFS 装载点上的作。
  • 当在以下方面出现延迟时: READWRITE 备份应用程序中的作,BoostFS 日志显示这一点 error 5057 File handle is stale from Data Domain server的完整性。

BoostFS 日志:

###### WRITE operation FAILED due to STALE FILE HANDLE error ######
Sep 11 00:36:29.635 7884 10740 [E] [ddp log] [1ECC:29F4] ddcl_ddcp_send_file_loop: Call to recv
refs2 failed. [ERR=5057] Sep 11 00:36:29.635 7884 10740 [E] [ddp log] [1ECC:29F4] ddcl_ddcp_pwrite: Call to send file loop2 failed. [ERR=5057]
Sep 11 00:36:29.635 7884 10740 [E] [ddp log] [1ECC:29F4] ddcl_ddcp_pwrite: Error in ddcl ddcp
pwrite. [ERR=5057] Sep 11 00:36:29.635 7884 10740 [E] [ddp log] [1ECC:29F4] ddp_write() failed Offset 11010048, BytesToWrite 1048576, BytesWritten 0 Err: 5057-File handle is stale
Sep 11 00:36:29.635 7884 10740 [E] bfs_cache_flush: failed: 5057 File handle is stale (0 bytes written)
Sep 11 00:36:29.651 7884 11292 [E] [ddp log] [1ECC:2C1C] ddcl_ddcp_send_file_loop: Call to recv
refs2 failed. [ERR=5057]
####### PANIC occurred HERE #######
Sep 11 00:36:29.667 7884 11292 [E] [ddp log] [1ECC:2C1C] PANIC: ..\ddcl\ddcl_ddcp.c:
ddcl_ddcp_commit: 4541: !(c->send_offset == c->write_offset)

分流:

  1. 检查 BoostFS 和服务器端 DDFS 日志中是否存在上面报告的错误。
  2. 观察 中的延迟 READWRITE 备份应用程序中的作。考虑 BoostFS API 进入和退出日志。
  3. 检查为 OST_ABANDON_TIMEOUT (默认为三个小时)。
  4. 检查 RPC 的超时是否大于为 OST_ABANDON_TIMEOUT的完整性。

Ursache

  1. 此问题是由于 READWRITE 由备份应用程序执行的作。这会触发 DDFS 丢弃超时。这会导致在三小时后关闭相应的文件句柄(默认值)
  2. 这是 DDFS 用于标识非活动文件句柄的默认丢弃超时期限。最终,新写入可能会在客户端遇到崩溃。

Lösung

联系 戴尔支持 以增加需要访问 bash 的超时。

将 OST_ABANDON_TIMEOUT 参数。其值可以设置为较大的值,最长为 12 小时。

 

提醒:在应用解决方案的过程中,必须先禁用再启用文件系统。

 

  1. 使用管理员角色访问权限登录到 Data Domain。支持人员进入 bash 模式,然后进入 se 模式 ddsh -s
  2. 检查 原件 OST_ABANDON_TIMEOUT 价值。
SE@dd## se sysparam show OST_ABANDON_TIMEOUT
  1. 增加 OST_ABANDON_TIMEOUT 价值。默认情况下,该值为 10800(三个小时)。
SE@dd## se sysparam set OST_ABANDON_TIMEOUT=129600
SE@dd## se sysparam show OST_ABANDON_TIMEOUT

Name Description Current Default Override
------------------- --------------------------------- ------- ------- -----
---
OST_ABANDON_TIMEOUT DDCP abandon context timeout(sec) 129600 10800 rpc
------------------- --------------------------------- ------- ------- -----
---

SE@dd##priv set admin
  1. 上述参数更改后重新启动文件系统。与客户确认是否允许此重新启动。如果没有,请计划维护期以运行以下命令:
SE@dd## filesys disable
SE@dd## filesys enable

Betroffene Produkte

Data Domain
Artikeleigenschaften
Artikelnummer: 000215706
Artikeltyp: Solution
Zuletzt geändert: 14 Jan. 2026
Version:  4
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.