Avamar:NDMP 備份失敗,磁碟區記憶體使用發生嚴重訊號 11 區段錯誤

Summary: 當非常大的磁碟區 (例如 5 TB、3 M 檔案) 執行多個串流,消耗大約 15 GB 隨機存取記憶體 (RAM)/SWAP 並超過記憶體限制時,Avamar Network Data Management Protocol (NDMP) 備份可能會中止並顯示「嚴重訊號 11」(分段錯誤)。通過拆分卷、減少併發備份或文件計數、備份較低的目錄級別或增加並行流來解決。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

備份失敗指示

當 Avamar NDMP 備份遇到分段錯誤 (訊號 11) 時,會觀察到下列症狀:

  • 備份工作中止,並出現類似以下的嚴重錯誤訊息:
2017-10-13 19:42:00 avtar FATAL <5889>: Fatal signal 11 in pid 31103
 
  • 記錄項目顯示正在處理的異常大的資料集,例如:
avtar Info <8688>: Status 2017-10-13 19:32:37, 3,050,352 files, 2,419,299 directories, 5,119 GB (3,050,352 files, 1.913 GB, 41.42% new) 15049MB 60% CPU (1 open files)
 
  • 報告記憶體消耗量很高,單個備份流通常超過 15 GB 的 RAM/SWAP。
  • 許多 NDMP 串流處於作用中 (每個用戶端最多 8 個),每個可能使用 2 GB 或更多的記憶體。
  • 可能會同時執行多個大型備份,進而增加整體的系統負載。
  • 受影響的磁碟區包含數百萬個檔案和目錄 (例如,2.4 M 目錄中的 3 M 個檔案,涵蓋 5.1 TB 的資料)。
  • 即使只有少量數據發生更改(例如 1.9 GB),備份過程也會嘗試從 NAS 發送每個檔進行處理。

Cause

觸發致命信號的潛在因素 11.

當進程訪問未分配給它的記憶體時,將生成信號 11(分段錯誤)。下列情況在 Avamar NDMP 備份期間直接導致此事件:

  • 同時執行多個大型 NDMP 備份。
  • 一次備份處理了 3,050,352 個檔2,419,299 個目錄, 總計 5.1 TB 的數據,而其中只有 1.9 GB 的數據已更改。
  • 每個 NDMP 串流可能會消耗≥ 2 GB 的記憶體。用戶端最多可使用 8 個串流, 而且有多個用戶端同時處於活動狀態,導致較高的聚合記憶體需求。
  • 在當機前,備份程序使用大約 15 GB 的 RAM/SWAP
  • Avamar 限制每個用戶端的串流數量,但不會對總流數強制實施全域限制。這允許合併的記憶體使用量超過可用資源。

這些佔用大量記憶體的情況導致 avtar 進程遇到分段錯誤,記錄在日誌中為:

2017-10-13 19:42:00 avtar FATAL <5889>: Fatal signal 11 in pid 31103

Resolution

修正訊號 11 導致的 Avamar NDMP 備份失敗 (分段錯誤)

步驟 1 - 評估當前備份負載。

使用 Avamar Administrator 主控台或 CLI 識別會產生大量 NDMP 備份的磁碟區。

列出作用中 NDMP 工作及其資源用量:

$ avtar -listjobs -type ndmp

 步驟 2 - 減少同時備份卷。

  • 限制同時備份的磁碟區數量,以避免過度消耗 RAM/SWAP。
  • 在 Avamar Administrator 中,編輯備份排程並取消選取重疊的視窗。

步驟 3 - 將大型磁碟區分割成較小的子磁碟區

  • 識別包含超過 300 萬個檔案或超過 5 TB 資料的磁碟區 (如範例所示)。
  • 在目錄樹中創建低一級的邏輯子卷。
  • 在 Avamar 中將每個子磁碟區設定為個別的 NDMP 用戶端。
    •  範例:為子目錄建立新的 NDMP 用戶端
$ avtar -addclient -name subvol1 -path /data/level2/subvol1

 步驟 4 - 調整 NDMP 串流設定。

  • 如果 NAS 支援,請增加每個用戶端的最大 NDMP 流數。
  • 在 NAS NDMP 組態中,盡可能將串流限制從預設的 4 提高到 8。

步驟 5 - 限制每個流的檔案

  • 建立備份原則時,請設定較低的「每個串流的檔案數」閾值,以將每個串流的記憶體佔用空間保持在 2 GB 以下。
  • 使用 Avamar Administrator → Policies → Advanced Settings 來調整此值。

步驟 6 - 在備份期間監視記憶體使用方式

  • 在執行備份時,觀察 Avamar 伺服器上的 RAM 和交換耗用量。
  • 確保使用量遠低於總可用記憶體(例如,15 GB 作業小於 12 GB)。
    • 即時記憶體監控
$ top -b -n 1 | grep avtar

 步驟 7 - 驗證修復

  • 再次執行先前失敗的備份。
  • 確認記錄檔不再包含 Fatal signal 11 訊息的典型原因。
  • 驗證備份是否成功完成,以及報告的數據大小是否符合預期。
    •  檢查最新的備份記錄是否有錯誤
$ tail -n 50 /var/log/avtar/backup.log

 

警告:變更 NAS 上的 NDMP 串流限制可能會影響共用相同 NAS 的其他應用程式。在增加限制之前驗證相容性。
警示:減少同時備份或分割磁碟區的數目,可能會延長整體備份視窗。規劃計劃以避免與生產工作負載發生衝突。
注意:如果在應用上述步驟后記憶體壓力仍然存在,請考慮將物理 RAM 添加到 A。

Affected Products

Avamar

Products

Avamar, Avamar Data Store Gen4S
Article Properties
Article Number: 000066012
Article Type: Solution
Last Modified: 23 Oct 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.