疑難解答 Data Domain Restorers (DDR) 上檔案重複數據刪除與壓縮比例不佳的問題
摘要: 疑難解答 Data Domain Restorers (DDR) 上檔案重複數據刪除與壓縮比例不佳的問題
本文适用于
本文不适用于
本文并非针对某种特定的产品。
本文并非包含所有产品版本。
症状
Data Domain Restorers (DDR) 的設計目的是使用最少的實體 (壓縮后) 磁碟空間來容納大量的邏輯 (預先壓縮) 數據。這是透過下列方式實現的:
- 刪除內嵌數據以移除已儲存在 DDR 磁碟上的重複資料區塊,僅保留唯一數據
- 在數據實際寫入磁碟之前,先壓縮唯一數據。
- 使用案例
- 正在內嵌的數據類型
- 備份應用程式組態
- DDR 可快速耗盡其可用容量
- 對備份、還原或復寫效能的影響
- DDR 無法滿足客戶期望
原因
本文旨在討論:
- DDR 上重複資料刪除與數據壓縮的簡短概觀
- 如何判斷系統和個別檔案的整體壓縮率
- 可能導致整體壓縮率下降的因素
解决方案
Data Domain Restorer 如何摻取新數據?
除了重複數據刪除/壓縮新數據之外,DDR 也為每個已內嵌的檔案建立一個「區段樹狀結構」。這基本上就是構成該檔案的區段「指紋」清單。如果 DDR 必須稍後再讀回檔案,則會:
如何判斷 DDR 上的整體壓縮比率?
您可以使用「filesys show space」命令來檢視 DDR 的整體使用率 (和壓縮比率)。例如:
Active Tier:
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 115367.8 - -
/data: comp 679 后 4.2 6242.4 551.8 92% 202.5
/ddvar 49.2 9.1 37.6 20% -
---------------- -------- -------- --------- ---- --------------在此案例中,我們看到:
Comp-Comp 後全球-Comp 本機 Comp Total-Comp
(GiB) (GiB) 因素因素 (
減量 %)
---------------- -------- --------- ----------- ---------- -------------
目前使用:* 115367.8 6242.4 - 18.5x (94.6) <=== 已寫入注
:
過去 7 天 42214.7 1863.2 11.0x 2.1x 22.7x (95.6)
過去 24 小時 4924.8 274.0 8.8x 2.0x 18.0x (94.4)
---------------- -------- --------- ----------- ---------- -------------
DDR 上所有使用率圖的計算方式如下:
容器集 73fcacadea763b48:b66f6a65133e6c73:
...
attrs.psize = 4718592 <=== 位元組
中的容器大小...
attrs.max_containers = 1546057 <=== 最大可能的容器
attrs.free_containers = 125562 <=== 目前免費的
容器attrs.used_containers = 1420495 <=== 目前在使用
容器中...
請參閱:
如何判斷個別檔案、目錄或目錄樹狀結構的重複數據刪除與壓縮比率?
當檔案內嵌時,DDR 會記錄檔案的相關統計數據,包括:
SE@DDVE60_JF## filesys show compression /data/col1/backup/testfile
Total files:1; 位元組/storage_used:2.9
原始位元組: 3,242,460,364
全球壓縮: 1,113,584,070
本機壓縮: 1,130,871,915
元數據: 4,772,672
若要報告整個目錄樹狀結構的統計數據:
SE@DDVE60_JF## filesys 顯示壓縮 /data/col1/backup
Total files:3; 位元組/storage_used:1.4
原始位元組: 7,554,284,280
全球壓縮: 5,425,407,986
本機壓縮: 5,510,685,100
元數據: 23、263、692
然而,請注意,使用這些統計數據有幾個注意事項:
預先壓縮的位元組不一定為檔案的預先壓縮/邏輯大小。相反地,它是一生寫入檔案的位元組總數。因此,在某些環境中,現有的檔案通常會被覆寫 (例如使用虛擬磁帶庫功能的檔案),此圖可能大於對應檔案的邏輯大小。
消化「品質不佳」的數據是否會導致整體壓縮率下降?
是的,若要使 DDR 達到良好的內嵌數據整體壓縮率,它必須能夠重複數據刪除和壓縮。有各種類型的數據可以避免這種情況,如下所述:
預先壓縮/預先加密的數據:
這些是客戶端系統或備份應用程式上壓縮或加密的數據類型。這也可能包括設計壓縮或加密的應用程式專用檔案 (例如媒體檔案),以及壓縮或加密或內嵌媒體檔案等二進位對象的資料庫檔案。
由於壓縮或加密演算法的運作方式相對較小,檔案的基本數據變更會在檔案中變更為「ripple out」。例如,用戶端可能會保留 100 Mb 加密檔案,其中會修改 10Kb。通常,除了變更的 10Kb 區段外,修改之前和之後產生的檔案均相同。使用加密時,即使只有 10 Kb 的未加密數據在修改前後有所變更,加密演算法仍會導致檔案的整個內容變更。
當此類數據定期修改並定期傳送至 DDR 時,這種「波紋出」效應會導致每一代檔案看起來與前幾代的相同檔案不同。因此,每一代都包含一組獨特的區段 (和區段指紋),因此重複數據刪除比例不佳。
另請注意, lz 演算法不是預先壓縮的檔案,而是無法進一步壓縮構成區段數據,因此在寫入磁碟之前無法壓縮數據。
一般準則是預先壓縮/預先加密,導致下列原因:
在可能的情況下,傳送至 DDR 的數據不應加密或壓縮 - 這可能需要停用終端客戶端或對應備份應用程式中的加密或壓縮。
如需在特定備份、用戶端應用程式或操作系統中檢查、修改加密或壓縮設定的協助,請聯絡適當的支援供應商。
媒體檔案:
根據設計,特定檔類型包含預先壓縮或預先加密的數據。例如:
具有高度「獨特性」的檔案:
要達到良好的重複數據刪除率,取決於 DDR 多次看到相同的區段 (和區段指紋)。然而,特定數據類型僅包含唯一的交易數據,根據設計,其中包含「唯一」數據。
如果這些檔案傳送至 DDR,則每一代的備份包含一組獨特的區段或區段指紋,因此會看到重複數據刪除比例下降。
這類檔案的范例如下:
小型檔案:
將小型檔案寫入 DDR 時,會造成各種問題。這些包括:
要好。備份應用程式的多重複位:
備份應用程式可設定為在傳送至備份裝置的串流中執行數據複位,即來自輸入串流 (即不同用戶端) 的數據會以單一串流傳送至備份裝置。此功能主要用於寫入實體磁帶裝置時,例如:
此外,還原效能可能較差,因為若要還原特定客戶端數據,DDR 必須讀取許多檔案或容器,其中檔案或容器中的大多數數據會因為與其他用戶端備份相關而多餘的數據。
備份應用程式在寫入 DDR 時不得使用多重功能,因為 DDR 支援比實體磁帶裝置更高的傳入串流計數,且每個串流都能以變動速度寫入。因此,應停用備份應用程式的多重功能。如果停用多重功能後,備份效能受到影響,則:
備份插入過多磁帶標記的應用程式:
某些備份應用程式可能會將重複的數據結構插入稱為「標記」的備份串流。標記不代表備份內的實體數據,而是被備份應用程式當作索引或定位系統使用。
在某些情況下,將標記納入備份串流可能會降低重複資料刪除比例,例如:
為避免發生此問題,DDR 使用標記識別技術,允許:
然而,若要充分利用這項技術,DDR 必須能正確辨識插入備份串流中的標記。DDR 會根據「標記類型」選項的設定來尋找標記,例如:
SE@DDVE60_JF## filesys 選項顯示
Option Value
-------------------------------- --------
...
標記類型自動
...
-------------------------------- --------,這應該會設為「auto」,因為這可讓 DDR 自動符合最常見的標記類型。如果系統僅從一個可插入標記的備份應用程式中擷取數據,則指定特定標記類型可能有效能優勢, 即:
# filesys 選項設定標記類型 {auto | nw1 | cv1 | tsm1 | tsm2 | eti1 fdr1 | hpdp1 | besr1 | ssrt1 | ism1 | bti1| none}
請參閱:
如果系統從使用備份標記但自動化標記處理技術 (例如 BridgeHead 軟體的產品) 無法辨識的應用程式中取得數據,請聯絡您的簽約支援供應商,然後與 Data Domain 支援部門合作,決定 DDR 上所需的設定,以偵測非標準標記。
表示 DDR 收到的「品質不佳」數據:
下表列出上述不同數據類型的重複資料刪除和壓縮比率。此清單並非詳盡無礙,而且由於工作負載或 DDR 所內嵌的數據,在特定系統上明顯會出現特定圖片有些差異:
DDR 是否有某些因素會影響整體重複數據刪除率?
是的,有幾個因素可能會導致 DDR 上的磁碟保留舊/超數據,進而增加壓縮後 (實體) 磁碟空間,並降低整體壓縮比率。這些因素會在下方進行討論。
無法定期執行文件系統清理:
檔系統清理是唯一的方法,可實際移除磁碟上的舊/超數據,而 DDR 上的檔案將不再參考這些數據。因此,使用者可能會從系統刪除數個檔案 (導致預先壓縮的使用率下降),但執行不幹凈 (使壓縮後/實體使用率高)。這會導致整體壓縮比率下降。
Data Domain 建議您定期排程清理作業,如下所示:
系統上的舊快照過多:
DDR 可建立 mtree 快照,在建立快照時代表 mtree 的內容。然而,請注意,在系統上保留舊快照可能會增加壓縮后/實體使用率,導致整體壓縮率下降。例如:
有關使用快照和快照排程的進一步資訊,請參閱下列文章:Data Domain - 管理快照排程
複製延遲過多:
原生 Data Domain 複製會使用複寫記錄或 mtree 快照 (視復寫類型而定),追蹤哪些檔案或數據正在等待復寫至遠端 DDR。復寫延遲是複本落後於來源 DDR 變更的概念。這可能會因為各種因素而發生,包括:
如果 DDR 因高使用率而遭受苦苦,而這一點相信是因為復寫延遲,請聯絡您的簽約支援供應商以取得進一步協助。
DDR 是否有組態變更或特定因素可能會提高整體壓縮率?
是,移除或解決本檔先前討論過的問題,應可讓 DDR 在一段時間後顯示改善的整體壓縮比率。DDR 上也有多種因素或工作負載,這可能會增加重複數據刪除比率。這些通常涉及:
根據預設,DDR 會使用 lz 演演算法壓縮寫入磁碟的數據。如前所述, lz 因其在壓縮或解壓縮所需的 CPU 方面負載相對較低,因此會在降低數據大小方面顯示合理的有效性。
您可以提高壓縮演算法的主動性,進一步節省壓縮后或硬碟的使用率 (進一步提升整體壓縮比率)。支援的壓縮演算法,以低到高的有效性順序,如下所示:
根據上表所示,壓縮演算法越積極,在數據壓縮或解壓縮過程中需要更多 CPU。因此,只有在正常工作負載下輕輕載入的系統,才應對更積極演算法進行變更。在負載量大的系統上變更演算法,可能會導致備份或還原效能極低,並可能導致文件系統發生錯誤或重新啟動 (導致 DDR 中斷)。
如需有關變更壓縮類型的進一步資訊,請參閱下列文章:Data Domain 系統和清理效能影響,轉換為 GZ 壓縮
由於變更壓縮演算法可能會造成影響,因此建議有興趣執行此作業的客戶先聯絡其簽約的支援供應商,以進一步討論變更,再繼續進行。
使用文件系統 fastcopy:
DDR 允許使用「file System fastcopy」命令快速複製檔案 (或目錄樹狀結構)。此功能透過複製現有檔案 (或檔案群組) 的元數據來建立檔案,如此一來,雖然新檔案並未實際連接至原始檔案,但他們在磁碟上參考的數據與原始檔案完全相同。這表示無論原始檔案的大小,新檔案在磁碟上耗用的空間都很少 (因為該檔案會完美地刪除現有數據)。
此行為的結果是,使用文件系統fastcopy時,DDR上預先壓縮 (邏輯) 的數據大小會快速增加,但 DDR 的壓縮後/實體使用率仍維持靜態。
例如,下列 DDR 的使用率如下 (表示整體壓縮比率為 ~1.8x):
Active Tier:
Resource Size GiB Used GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 12.0 - -
/data: post-comp 71.5 6.8 64.7 10% 0.0
/ddvar 49.2 1.1 45.6 2% -
/ddvar/core 158.5 0.2 150.2 0% -
---------------- -------- -------- --------- ---- --------------
其中包含大型檔案 (/data/col1/backup/testfile):
!! DDVE60_JF您的數據處於危險!! # ls -al /data/col1/backup/testfile-rw-r
--r-- 1 root 3221225472 7 月 29 日 04:20 /data/col1/backup/testfile
檔案會快速複製數次:
sysadmin@DDVE60_JF# filesys fastcopy 來源 /data/col1/backup/testfile destination /data/col1/backup/testfile_copy1
sysadmin@DDVE60_JF# filesys fastcopy 來源 /data /col1/backup/testfile destination /data/col1/backup/testfile_copy2
sysadmin@DDVE60_JF# filesys fastcopy source /data/col1/backup/testfile destination /data/col1/backup/testfile_copy3
這會導致預先壓縮的使用率增加,因為壓縮后使用率變化甚微:Active Tier:
Resource Size GiB Used GiB Use GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 21.0 - -
/data: post-comp 71.5 6.8 64.7 10% 0.0
/ddvar 49.2 1.1 45.6 2% -
/ddvar/core 158.5 0.2 150.2 0% -
---------------- -------- -------- --------- ---- --------------
因此 DDR 現在顯示的整體壓縮率約 3.1x。
如上所述,複本的壓縮統計數據會完美地刪除重複數據:
sysadmin@DDVE60_JF# filesys 顯示壓縮 /data/col1/backup/testfile_copy1
Total files:1; 位元組/storage_used:21331976.1
原始位元組: 3,242,460,364
全球壓縮: 0
本機壓縮: 0
元資料: 152
Fastcopy 功能無法藉由降低 DDR 的實際使用率來改善整體壓縮比率,但這可能是整體壓縮率高的原因 (特別是在大量使用 fastcopy 的環境中,例如 Avamar 6.x)。
- 備份應用程式會將資料 (即檔案) 傳送至 DDR。
- DDR 會將這些檔案分割成大小為 4-12 Kb 的區塊,每個區塊都被視為「區段」。
- DDR 會根據區段內包含的數據,為每個區段產生唯一的「指紋」(類似於總和檢查總和)。
- 系統會根據 DDR 上的磁碟索引檢查新到達區段的指紋,以判斷 DDR 是否已擁有具有相同指紋的區段。
- 如果 DDR 已保留具有相同指紋的區段,則新到達的數據中對應的區段是重複的,而且可以丟棄 (即已刪除重複數據)。
- 從新到達的數據中移除所有重複區段后,僅保留唯一或新的區段。
- 這些唯一或新的區段會分組為 128 Kb 的「壓縮區域」,然後壓縮 (預設為使用 lz 演演算法)。
- 壓縮區域會裝入 4.5 Mb 的儲存裝置,也就是所謂的「容器」,然後再寫入硬碟。
除了重複數據刪除/壓縮新數據之外,DDR 也為每個已內嵌的檔案建立一個「區段樹狀結構」。這基本上就是構成該檔案的區段「指紋」清單。如果 DDR 必須稍後再讀回檔案,則會:
- 確定檔案區段樹狀結構的位置。
- 閱讀區段樹狀結構,以取得構成要讀取檔案區域的所有區段指紋清單。
- 使用磁碟托架來判斷磁碟上數據的實體位置 (即容器)。
- 閱讀磁碟上底層容器的實體區段數據。
- 使用實體區段數據重建檔案。
如何判斷 DDR 上的整體壓縮比率?
您可以使用「filesys show space」命令來檢視 DDR 的整體使用率 (和壓縮比率)。例如:
Active Tier:
Resource Size GiB Used GiB Avail GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 115367.8 - -
/data: comp 679 后 4.2 6242.4 551.8 92% 202.5
/ddvar 49.2 9.1 37.6 20% -
---------------- -------- -------- --------- ---- --------------在此案例中,我們看到:
- DDR 上保留的預先壓縮或邏輯數據:115367.8 Gb
- DDR 上使用的壓縮后或實體空間:6242.4 Gb
- 整體壓縮率為 115367.8 / 6242.4 = 18.48x
Comp-Comp 後全球-Comp 本機 Comp Total-Comp
(GiB) (GiB) 因素因素 (
減量 %)
---------------- -------- --------- ----------- ---------- -------------
目前使用:* 115367.8 6242.4 - 18.5x (94.6) <=== 已寫入注
:
過去 7 天 42214.7 1863.2 11.0x 2.1x 22.7x (95.6)
過去 24 小時 4924.8 274.0 8.8x 2.0x 18.0x (94.4)
---------------- -------- --------- ----------- ---------- -------------
DDR 上所有使用率圖的計算方式如下:
- 總預先壓縮數據:DDR 所持有之所有檔案的預先壓縮 (邏輯) 大小總和。
- 壓縮後的數據總數:磁碟上使用的「容器」數量乘以 4.5 Mb (單一容器大小)。
- 壓縮后的總大小:系統上可用磁碟空間所建立的最大「容器」數量。
容器集 73fcacadea763b48:b66f6a65133e6c73:
...
attrs.psize = 4718592 <=== 位元組
中的容器大小...
attrs.max_containers = 1546057 <=== 最大可能的容器
attrs.free_containers = 125562 <=== 目前免費的
容器attrs.used_containers = 1420495 <=== 目前在使用
容器中...
請參閱:
Postcomp size = 1546057 * 4718592 / 1024 / 1024 / 1024 = 6794.2 Gb
Postcomp 使用 = 1420495 * 4718592 / 1024 / 1024 / 1024 = 6242.4 Gb
Postcomp 使用 = 1420495 * 4718592 / 1024 / 1024 / 1024 = 6242.4 Gb
如何判斷個別檔案、目錄或目錄樹狀結構的重複數據刪除與壓縮比率?
當檔案內嵌時,DDR 會記錄檔案的相關統計數據,包括:
- 預先壓縮 (邏輯) 位元組
- 重複資料刪除后的獨特區段大小
- 重複資料刪除和壓縮后的獨特區段大小
- 檔案元件大小 (即區段樹狀結構等)
SE@DDVE60_JF## filesys show compression /data/col1/backup/testfile
Total files:1; 位元組/storage_used:2.9
原始位元組: 3,242,460,364
全球壓縮: 1,113,584,070
本機壓縮: 1,130,871,915
元數據: 4,772,672
若要報告整個目錄樹狀結構的統計數據:
SE@DDVE60_JF## filesys 顯示壓縮 /data/col1/backup
Total files:3; 位元組/storage_used:1.4
原始位元組: 7,554,284,280
全球壓縮: 5,425,407,986
本機壓縮: 5,510,685,100
元數據: 23、263、692
然而,請注意,使用這些統計數據有幾個注意事項:
- 統計數據會在檔案或數據消化時產生,之後不會更新。由於 DDR 的運作方式、消化新檔案或刪除參照相同資料的檔案等原因,檔案可能會隨著時間推移而改變重複數據刪除的方式,導致這些統計數據過時。
- 此外,DDR 上的特定使用案例 (例如檔案的fastcopy,然後刪除原始檔案), 可能會導致這些統計數據產生誤導或不正確。
預先壓縮的位元組不一定為檔案的預先壓縮/邏輯大小。相反地,它是一生寫入檔案的位元組總數。因此,在某些環境中,現有的檔案通常會被覆寫 (例如使用虛擬磁帶庫功能的檔案),此圖可能大於對應檔案的邏輯大小。
消化「品質不佳」的數據是否會導致整體壓縮率下降?
是的,若要使 DDR 達到良好的內嵌數據整體壓縮率,它必須能夠重複數據刪除和壓縮。有各種類型的數據可以避免這種情況,如下所述:
預先壓縮/預先加密的數據:
這些是客戶端系統或備份應用程式上壓縮或加密的數據類型。這也可能包括設計壓縮或加密的應用程式專用檔案 (例如媒體檔案),以及壓縮或加密或內嵌媒體檔案等二進位對象的資料庫檔案。
由於壓縮或加密演算法的運作方式相對較小,檔案的基本數據變更會在檔案中變更為「ripple out」。例如,用戶端可能會保留 100 Mb 加密檔案,其中會修改 10Kb。通常,除了變更的 10Kb 區段外,修改之前和之後產生的檔案均相同。使用加密時,即使只有 10 Kb 的未加密數據在修改前後有所變更,加密演算法仍會導致檔案的整個內容變更。
當此類數據定期修改並定期傳送至 DDR 時,這種「波紋出」效應會導致每一代檔案看起來與前幾代的相同檔案不同。因此,每一代都包含一組獨特的區段 (和區段指紋),因此重複數據刪除比例不佳。
另請注意, lz 演算法不是預先壓縮的檔案,而是無法進一步壓縮構成區段數據,因此在寫入磁碟之前無法壓縮數據。
一般準則是預先壓縮/預先加密,導致下列原因:
- 預先加密資料:重複數據刪除率不佳,但壓縮比率允許
- 預先壓縮的資料:重複數據刪除率不佳,壓縮率不佳
在可能的情況下,傳送至 DDR 的數據不應加密或壓縮 - 這可能需要停用終端客戶端或對應備份應用程式中的加密或壓縮。
如需在特定備份、用戶端應用程式或操作系統中檢查、修改加密或壓縮設定的協助,請聯絡適當的支援供應商。
媒體檔案:
根據設計,特定檔類型包含預先壓縮或預先加密的數據。例如:
- PDF 檔案
- 特定音訊檔案 (mp3、wma、ogg 等)
- 影像檔案 (avi、mkv 等)
- 映射檔案 (png、bmp、jpeg 等)
- 應用程式特定檔案 (Microsoft Office、Open Office、Libre Office 等)
具有高度「獨特性」的檔案:
要達到良好的重複數據刪除率,取決於 DDR 多次看到相同的區段 (和區段指紋)。然而,特定數據類型僅包含唯一的交易數據,根據設計,其中包含「唯一」數據。
如果這些檔案傳送至 DDR,則每一代的備份包含一組獨特的區段或區段指紋,因此會看到重複數據刪除比例下降。
這類檔案的范例如下:
- 資料庫交易記錄 (例如 Oracle 封存記錄)。
- Microsoft Exchange 交易記錄
小型檔案:
將小型檔案寫入 DDR 時,會造成各種問題。這些包括:
- 元數據膨脹 - 與實體數據相比,DDR 的檔案元數據數量開始維持比預期的更高。
- 容器使用率不佳 - 依據設計 (由於 Data Domain Stream Informed Segment Layout 或 SISL 架構 ,超出本文件的範圍),磁碟上的 4.5Mb 容器僅能存放單一檔案中的數據。因此,備份一個 10 Kb 檔案,例如,導致至少一個完整的 4.5 Mb 容器會寫入該檔案。這可能表示針對此類檔案,DDR 所使用的壓縮后 (中央實) 空間遠多於對應的預先壓縮 (邏輯) 資料備份量,進而造成整體壓縮比率負值。
- 重複數據刪除率不佳 - 小於 4 Kb 的檔案 (DDR 上支援的區段大小最小) 是由單一區段所組成,該區段的填充容量為 4 Kb。此類區段不會刪除重複數據,而是直接寫入磁碟。這可能會導致 DDR 持有相同區段的多個副本 (被視為重複區段)。
- 備份、還原或清潔效能不佳 - 從一個檔案移到下一個檔案時,備份、還原或清理作業會負擔大量費用 (因為要使用的元數據內容必須切換)。
- 在 DDOS 5.5 及更新版本中導入實體清潔或垃圾收集功能,在一定程度上減輕使用小型檔案時對清潔效能的影響。
- 清理作業嘗試在複製階段將低使用率的容器數據匯總到包裝更緊密的容器中,以「復原」不良的容器使用率。
- 清理嘗試在其複製階段移除過多的重複區段。
要好。備份應用程式的多重複位:
備份應用程式可設定為在傳送至備份裝置的串流中執行數據複位,即來自輸入串流 (即不同用戶端) 的數據會以單一串流傳送至備份裝置。此功能主要用於寫入實體磁帶裝置時,例如:
- 實體磁帶裝置僅支援單一傳入的寫入串流。
- 備份應用程式必須保持足夠的傳輸量至磁帶裝置,以防止磁帶開始、停止或倒轉 (也稱為擦鞋閃爍) - 如果流至磁帶裝置包含來自多個用戶端讀取的數據,便會更輕鬆。
此外,還原效能可能較差,因為若要還原特定客戶端數據,DDR 必須讀取許多檔案或容器,其中檔案或容器中的大多數數據會因為與其他用戶端備份相關而多餘的數據。
備份應用程式在寫入 DDR 時不得使用多重功能,因為 DDR 支援比實體磁帶裝置更高的傳入串流計數,且每個串流都能以變動速度寫入。因此,應停用備份應用程式的多重功能。如果停用多重功能後,備份效能受到影響,則:
- 使用 CIFS、NFS 或 OST (DDBoost) 備份應用程式的寫入串流數量應會增加 (以便在 DDR 上同時寫入更多檔案)。
- 使用 VTL 的環境應會在 DDR 中新增額外的磁碟驅動器,因為每個磁碟驅動器都可支援額外的平行寫入串流。
備份插入過多磁帶標記的應用程式:
某些備份應用程式可能會將重複的數據結構插入稱為「標記」的備份串流。標記不代表備份內的實體數據,而是被備份應用程式當作索引或定位系統使用。
在某些情況下,將標記納入備份串流可能會降低重複資料刪除比例,例如:
- 在第一代備份中,有 12 Kb 的數據連續存在 -DDR 將此數據識別為單一區段。
- 然而,在第二代備份中,包含可能以 6 Kb 數據、備份標記、6 Kb 數據表示的備份標記,會分割相同的 12 Kb 數據。
- 因此,在第二代備份期間建立的區段與第一代備份期間產生的區段不相符,因此無法正確刪除重複數據。
為避免發生此問題,DDR 使用標記識別技術,允許:
- 在內含備份時,將以透明方式從備份串流中移除備份標記。
- 備份標記,以便在備份還原期間重新插入備份串流
然而,若要充分利用這項技術,DDR 必須能正確辨識插入備份串流中的標記。DDR 會根據「標記類型」選項的設定來尋找標記,例如:
SE@DDVE60_JF## filesys 選項顯示
Option Value
-------------------------------- --------
...
標記類型自動
...
-------------------------------- --------,這應該會設為「auto」,因為這可讓 DDR 自動符合最常見的標記類型。如果系統僅從一個可插入標記的備份應用程式中擷取數據,則指定特定標記類型可能有效能優勢, 即:
# filesys 選項設定標記類型 {auto | nw1 | cv1 | tsm1 | tsm2 | eti1 fdr1 | hpdp1 | besr1 | ssrt1 | ism1 | bti1| none}
請參閱:
- 選取特定標記類型對效能的任何好處都可能微乎其微。
- 選取不正確的標記類型可能會導致備份或還原效能和重複數據刪除比率明顯降低。
如果系統從使用備份標記但自動化標記處理技術 (例如 BridgeHead 軟體的產品) 無法辨識的應用程式中取得數據,請聯絡您的簽約支援供應商,然後與 Data Domain 支援部門合作,決定 DDR 上所需的設定,以偵測非標準標記。
表示 DDR 收到的「品質不佳」數據:
下表列出上述不同數據類型的重複資料刪除和壓縮比率。此清單並非詳盡無礙,而且由於工作負載或 DDR 所內嵌的數據,在特定系統上明顯會出現特定圖片有些差異:
| 全球壓縮 | 本機壓縮 | 可能原因 |
| 低 (1x 至 4x) | 低 (1 倍至 1.5 倍) | 預先壓縮或加密的數據 |
| 低 (1 倍至 2 倍) | 高 (>2 倍) | 唯一但可壓縮的數據,例如資料庫封存記錄 |
| 低 (2 倍至 5 倍) | 高 (>1.5 倍) | 未偵測到的標記、高數據變更率或串流多重功能。 |
| 高 (>10 倍) | 低 (<1.5 倍) | 相同壓縮或加密數據的備份。這種情況並不常見。 |
DDR 是否有某些因素會影響整體重複數據刪除率?
是的,有幾個因素可能會導致 DDR 上的磁碟保留舊/超數據,進而增加壓縮後 (實體) 磁碟空間,並降低整體壓縮比率。這些因素會在下方進行討論。
無法定期執行文件系統清理:
檔系統清理是唯一的方法,可實際移除磁碟上的舊/超數據,而 DDR 上的檔案將不再參考這些數據。因此,使用者可能會從系統刪除數個檔案 (導致預先壓縮的使用率下降),但執行不幹凈 (使壓縮後/實體使用率高)。這會導致整體壓縮比率下降。
Data Domain 建議您定期排程清理作業,如下所示:
- 一般 DDR:每週一次
- 使用延伸保留的 DDR:每兩週一次
系統上的舊快照過多:
DDR 可建立 mtree 快照,在建立快照時代表 mtree 的內容。然而,請注意,在系統上保留舊快照可能會增加壓縮后/實體使用率,導致整體壓縮率下降。例如:
- mtree 存在包含許多檔案 (因此預先壓縮的使用率很高)。
- mtree 的快照隨即建立。
- 許多檔案會被刪除 (導致預先壓縮的使用率下降)。
- 檔系統清理作業已執行 - 但請注意,將最少的硬碟空間釋出,因為已刪除的檔案復本仍保留在 mtree 快照中,這表示這些檔案所參考的數據無法從磁碟移除。
- 因此,壓縮后/實體使用率仍然很高
有關使用快照和快照排程的進一步資訊,請參閱下列文章:Data Domain - 管理快照排程
複製延遲過多:
原生 Data Domain 複製會使用複寫記錄或 mtree 快照 (視復寫類型而定),追蹤哪些檔案或數據正在等待復寫至遠端 DDR。復寫延遲是複本落後於來源 DDR 變更的概念。這可能會因為各種因素而發生,包括:
- 已停用複寫內容
- DDR 之間的網路頻寬不足
- 頻繁的網路中斷連線。
如果 DDR 因高使用率而遭受苦苦,而這一點相信是因為復寫延遲,請聯絡您的簽約支援供應商以取得進一步協助。
DDR 是否有組態變更或特定因素可能會提高整體壓縮率?
是,移除或解決本檔先前討論過的問題,應可讓 DDR 在一段時間後顯示改善的整體壓縮比率。DDR 上也有多種因素或工作負載,這可能會增加重複數據刪除比率。這些通常涉及:
- 減少 DDR 上檔案所使用的硬碟空間量 (例如提高 DDR 所使用的壓縮演算法的主動性)
- 在未相應增加壓縮后/實體使用率的情況下,突然增加 DDR 上預先壓縮 (邏輯) 數據的數量
根據預設,DDR 會使用 lz 演演算法壓縮寫入磁碟的數據。如前所述, lz 因其在壓縮或解壓縮所需的 CPU 方面負載相對較低,因此會在降低數據大小方面顯示合理的有效性。
您可以提高壓縮演算法的主動性,進一步節省壓縮后或硬碟的使用率 (進一步提升整體壓縮比率)。支援的壓縮演算法,以低到高的有效性順序,如下所示:
- Lz
- gzfast
- 廣州
- 相較於 gzfast,lz 可提供約 15% 的壓縮效果,並使用 2 個 CPU。
- 相較於 gz,lz 可提供約 30% 的壓縮效果,並使用 5 個 CPU。
- 與 gz 相比,gzfast可提供約 10-15% 的壓縮效果。
根據上表所示,壓縮演算法越積極,在數據壓縮或解壓縮過程中需要更多 CPU。因此,只有在正常工作負載下輕輕載入的系統,才應對更積極演算法進行變更。在負載量大的系統上變更演算法,可能會導致備份或還原效能極低,並可能導致文件系統發生錯誤或重新啟動 (導致 DDR 中斷)。
如需有關變更壓縮類型的進一步資訊,請參閱下列文章:Data Domain 系統和清理效能影響,轉換為 GZ 壓縮
由於變更壓縮演算法可能會造成影響,因此建議有興趣執行此作業的客戶先聯絡其簽約的支援供應商,以進一步討論變更,再繼續進行。
使用文件系統 fastcopy:
DDR 允許使用「file System fastcopy」命令快速複製檔案 (或目錄樹狀結構)。此功能透過複製現有檔案 (或檔案群組) 的元數據來建立檔案,如此一來,雖然新檔案並未實際連接至原始檔案,但他們在磁碟上參考的數據與原始檔案完全相同。這表示無論原始檔案的大小,新檔案在磁碟上耗用的空間都很少 (因為該檔案會完美地刪除現有數據)。
此行為的結果是,使用文件系統fastcopy時,DDR上預先壓縮 (邏輯) 的數據大小會快速增加,但 DDR 的壓縮後/實體使用率仍維持靜態。
例如,下列 DDR 的使用率如下 (表示整體壓縮比率為 ~1.8x):
Active Tier:
Resource Size GiB Used GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 12.0 - -
/data: post-comp 71.5 6.8 64.7 10% 0.0
/ddvar 49.2 1.1 45.6 2% -
/ddvar/core 158.5 0.2 150.2 0% -
---------------- -------- -------- --------- ---- --------------
其中包含大型檔案 (/data/col1/backup/testfile):
!! DDVE60_JF您的數據處於危險!! # ls -al /data/col1/backup/testfile-rw-r
--r-- 1 root 3221225472 7 月 29 日 04:20 /data/col1/backup/testfile
檔案會快速複製數次:
sysadmin@DDVE60_JF# filesys fastcopy 來源 /data/col1/backup/testfile destination /data/col1/backup/testfile_copy1
sysadmin@DDVE60_JF# filesys fastcopy 來源 /data /col1/backup/testfile destination /data/col1/backup/testfile_copy2
sysadmin@DDVE60_JF# filesys fastcopy source /data/col1/backup/testfile destination /data/col1/backup/testfile_copy3
這會導致預先壓縮的使用率增加,因為壓縮后使用率變化甚微:Active Tier:
Resource Size GiB Used GiB Use GiB Use% Cleanable GiB*
---------------- -------- -------- --------- ---- --------------
/data: pre-comp - 21.0 - -
/data: post-comp 71.5 6.8 64.7 10% 0.0
/ddvar 49.2 1.1 45.6 2% -
/ddvar/core 158.5 0.2 150.2 0% -
---------------- -------- -------- --------- ---- --------------
因此 DDR 現在顯示的整體壓縮率約 3.1x。
如上所述,複本的壓縮統計數據會完美地刪除重複數據:
sysadmin@DDVE60_JF# filesys 顯示壓縮 /data/col1/backup/testfile_copy1
Total files:1; 位元組/storage_used:21331976.1
原始位元組: 3,242,460,364
全球壓縮: 0
本機壓縮: 0
元資料: 152
Fastcopy 功能無法藉由降低 DDR 的實際使用率來改善整體壓縮比率,但這可能是整體壓縮率高的原因 (特別是在大量使用 fastcopy 的環境中,例如 Avamar 6.x)。
受影响的产品
Data Domain产品
Data Domain文章属性
文章编号: 000064270
文章类型: Solution
上次修改时间: 16 12月 2024
版本: 5
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。