NetWorker:媒體資料庫維護和故障排除

Summary: 本文介紹識別和處理與媒體資料庫相關的問題的方法,以及維護和保護的最佳做法。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

  • 無法啟動服務。
  • 每日 伺服器保護>伺服器備份 工作流程失敗。
  • 在 NetWorker Management Console (NMC) 或 NetWorker Web 使用者介面 (NWUI) 管理中查詢或瀏覽儲存集時,與 mminfo 命令傳回的儲存集或用戶端相關的不完整或誤導性資訊。
  • 與無法找到存儲集、客戶機或卷相關的備份、恢復或克隆問題。
  • 伺服器精靈紀錄或主控台中與媒體資料庫相關的錯誤:
nsrmmdbd WiSS code assertion error (st_nextrec: rec loop detected)
nsrmmdbd error, ss_clone_ensure_clone_eligibility: assertion, invalid parameters or code segment
nsrmmdbd XCHK ssid:saveset_short_ssid host:saveset_hostname name:saveset_name has a fragment with an invalid volid:saveset_volid
nsrmmdbd NSR warning WiSS code assertion error (ST_readvdir: directory read failed)
nsrmmdbd NSR critical Unexpected error reading long record directory: an invalid slot number
nsrmmdbd NSR warning partial record error, ssid: saveset_short_ssid saveset_long_ssid flags:0x00010101 size:0 files:0 tm:datetime cloneid
nsrmmdbd NSR notice media db must be scavenged
nsrmmdbd NSR critical media db scavenge failed
nsrmmdbd NSR warning Cannot scavenge path_to_mmvolume6 (Permission denied) - recover from backup media
nsrmmdbd NSR warning Cannot scavenge path_to_mmvolume6 (unknown error code) - recover from backup media
nsrmmdbd MDB warning can't fetch save set <saveset ID>
nsrmmdbd MDB warning Unable to fetch child save set <saveset ID> for cover set <saveset ID>
  • 媒體資料庫中的許多存儲集突然丟失,或可用磁碟存儲可用空間突然跳躍。
  • 軟體無法到期或刪除儲存集,導致儲存裝置快速耗用。

Cause

與任何資料庫一樣,媒體資料庫可能會在對其正常操作進行任何推斷的情況下受到不同程度的損壞,例如。 
  • nsrmmdbd 程序意外關機 (核心傾印、系統當機、重新開機或斷電)。
  • 交易中斷 (外部安全性軟體干擾或磁碟空間耗盡)。
  • 邏輯內部問題(代碼錯誤或未處理的情況)。
  • 直接干擾 NetWorker 管理的儲存裝置上的媒體資料庫檔案或儲存集檔案。
通過以下一般做法,可以最好地保護媒體資料庫免受損壞:
  • 如果可能,請為 nsr/mm 資料夾使用單獨的本地磁碟分區,這有助於防止其他進程耗盡磁碟空間等情況。此分區應至少為媒體資料庫大小的 3 倍;大型媒體資料庫目前為10 GB;因此,100 GB 應該足以進行任何安裝。 
  • 確保每天完成伺服器備份工作流,以便在發生災難時提供媒體資料庫和關鍵災難恢復資源( 引導)的備份。
  • 定期使用 mminfo -B 命令驗證引導的位置。
  • 切勿允許其他 NetWorker 伺服器同時存取 NetWorker 伺服器的儲存磁碟區,否則可能會導致資料遺失。
  • 如果防毒軟體安裝在 NetWorker 伺服器上,請為 /nsr 目錄建立排除項目,以防止防毒軟體掃描、修改或移除 NetWorker 檔案。 
  • 避免手動刪除 NetWorker 儲存裝置中的任何檔案,以嘗試釋出空間。NetWorker 具有每天執行的空間回收例行程序,如果認為這些例行程序會失敗,則應聯絡支援部門。
  • 通常,對於數據區規劃,在需要時將相同類型的數據保留到相同的池中以便於維護,例如 vProxy 儲存集、文件系統存儲集和 Oracle 資料庫存儲集位於單獨的池中。
  • 請勿忽略與媒體資料庫錯誤相關的訊息 - 如有疑慮,請聯絡支援部門。
請注意 NetWorker 的媒體資料庫與儲存關係,並使用 需要掃描旗標來保護磁碟區: 
  • 作為伺服器備份工作流程的一部分,NetWorker 每天都會執行到期程序。此作業會計算保留和相依性,並使超過其保留期且沒有未到期相依性的儲存集到期。完成此作業後,NetWorker 會嘗試刪除所有過期的磁碟區儲存集。在此之後,將針對每個卷運行空間回收操作,從沒有相應媒體資料庫條目的磁碟介質中刪除存儲集檔。這意味著,如果媒體資料庫損壞,或者您將資料庫恢復到以前的時間點,則可能會刪除有效數據。
  • 如果您認為任何磁碟卷有問題,為確保未刪除有效數據,請確保該卷已卸載並標記為“需要掃描”。這也適用於恢復到前一個時間點后的卷(其中有效的存儲集可能存在於恢復點之後創建的磁碟上,因此在恢復的資料庫中沒有條目)。 
  • 「需要掃描」允許正常備份、復原及/或複製,但會防止正常過期或刪除,因此請確定其僅用於保護被認為有危險的磁碟區,並在返回正常作業時移除。必須卸載卷才能設置或刪除此標誌。在 NetWorker 伺服器災難回復 (nsrdr) 後,磁碟區通常會標記為「需要掃描」,以防止在災難回復情況下發生不必要的資料遺失。

Resolution

有幾種方法可以嘗試驗證和更正媒體資料庫問題。在嘗試上述任何一種方式之前,為了評估影響,請在保存集、磁片區、用戶端或其他任何內容之前和之後建立報告,以查看是否已移除儲存集、磁片區、用戶端或其他任何內容。
在命令列中,在託管輸出的目錄中,運行以下命令以比較該過程之前和之後的媒體資料庫屬性:
  • mminfo-C mminfo-C_pre.mmi
  • mminfo-X mminfo-X_pre.mmi
  • mminfo-ar “Volid, 類型, 位置, 集區, 磁碟區, 狀態, Volflags, 寫入, 集區」-q family=disk -xc, > mminfo-vol_pre.mmi
完成維護后,將每個檔重新運行到單獨的檔(例如 *_post.mmi)並比較值。

nsrim - 每日伺服器保護

每天運行伺服器保護 > 伺服器備份工作流,並隨之運行過期操作。到期動作會執行 nsrim這是 NetWorker 的原生維護公用程式。這也可以直接運行,但可能需要幾分鐘到幾個小時,具體取決於伺服器負載和媒體資料庫大小:
nsrim -X > nsrim.out 2>&1

除非此過程無法每天運行,否則這不太可能更改任何內容。檢查精靈記錄,瞭解 nsrim 每日完成情況。

服務重新啟動

重新啟動 NetWorker 服務會強制進行各種啟動檢查,這可能會使精靈記錄錯誤訊息中出現問題,並可能會修正任何問題。停止服務之前,如果資料庫問題看起來很嚴重,請確保有足夠的可用空間,並且引導位置已知(mminfo -B 輸出)。理想情況下,請先執行 nsrmmdbasm -s nsr/mm/mmvolrel_path > mm.xdr,以嘗試擷取目前的媒體資料庫複本。重新啟動服務之前,請建立 mmvolrel 資料夾的複本,因為稍後可能需要有鑑識或復原用途。

匯出與重新匯入媒體資料庫

此過程通過僅提取可行的媒體資料庫記錄並將其重新導入伺服器而不停止服務來避免完全災難恢復。但是 - 這應該只在伺服器空閒時執行,切勿在作業執行時嘗試。使用完整路徑代替 mmvolrel (可能因安裝或作業系統而有所不同)
  1. 開始之前,請在取消掛接後將所有磁碟區標記為需要掃描。如果為託管磁碟卷的設備設置 了自動媒體管理 ,則必須先禁用此功能。磁帶卷不需要此步驟。 
  2. 運行序言中所述的 mminfo 命令來準備初步報告。
  3. 檢查媒體資料庫 mmvolrel 資料夾與錄製的大小
  4. 確定沒有任何 nsrcknsrimnsrmmdbasm程序正在執行;如果 MM 父資料夾中有任何大型、舊或最近未修改的檔案 (例如 MM [英數]),請移動或刪除 (如果這些檔案未被任何程序鎖定)。
  5. 執行以下命令以解壓縮媒體資料庫:nsrmmdbasm -s mmvolrel > mm.xdr
  6. 將新檔案的大小與 mmvolrel 資料夾的大小進行比較 - 如果大小相近。如果它很小(4 B 或少數 KB),則命令將失敗。如果數量明顯較小 - 則過程中可能移除了損毀的記錄。
  7. 透過在 NMC/NWUI 中將伺服器 的狀態 欄位設定為 災難回復 ,或使用 nwadmin,讓伺服器準備復原其媒體資料庫。
  8. 再次使用 nsrmmdbasm 命令直接從媒體資料庫解壓縮檔案復原:nsrmmdbasm -r -2 < mm.xdr
  9. 完成後,運行與序言中所述相同的 mminfo,並比較每個卷 的存儲集 寫入 值,確保所有卷都存在;同樣地, mminfo-C 的值應相同。
  10. 如果存在任何差異,請注意並仔細考慮如何繼續,如果您對看到的結果沒有信心,請聯繫支持人員:
    • 對於看起來運行狀況良好的卷,可以刪除「需要掃描」標誌並裝入卷,因為如果 存儲集 寫入 的值一致,則如果卷中似乎沒有刪除任何存儲集,則不會有刪除存儲集的危險。 
    • 顯示較少存儲集寫入 總數較低的卷應保留 「需要掃描 」標誌,並運行掃描程式:scanner -i devicename,以重新引入在卷上找到的不再有記錄的檔。當每個卷的掃描程式完成後,再次檢查存儲集計數,並刪除 “需要掃描”標誌。一旦您確信 掃描器 已取代預期遺失的儲存集,請重新載入磁碟區。

nsrdr

nsrdr 執行的完整災難恢復不僅可以恢復媒體資料庫,還可以恢復其他伺服器元素,如資源資料庫和作業資料庫。在嘗試繼續此操作之前,請參閱您所在版本的 伺服器災難回復和可用性最佳實踐指南 
此命令要求儲存節點為連線狀態且可連線,才能完成。
 
注意:如有任何問題或疑慮,請務必與支援部門聯絡,因為如果無法使用「需要掃描」旗標來保護具有可行儲存集的檔案系統,而這些儲存集可能由於損毀而沒有媒體資料庫記錄,或復原至先前的時間點,則媒體資料庫復原可能會導致磁碟區的資料遺失。

Affected Products

NetWorker

Products

Data Backup & Protection Software, NetWorker Family
Article Properties
Article Number: 000223518
Article Type: Solution
Last Modified: 08 Apr 2024
Version:  1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.