Data Domain - 壓縮常見問答集

Summary: 本文回答有關壓縮最常見的問題。Data Domain Restorer 與資料類型無關。Restorer 使用的壓縮演算法只會備份不重複的資料 - 重複模式或多個備份只會儲存一次。 在多週的每日和增量備份中,一般壓縮率為 20:1。此外,資料類型也會影響壓縮率,因此壓縮的圖片檔案、資料庫和壓縮歸檔 (例如 .zip 檔案) 會壓縮不良。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

適用於

  • 所有 DDR
  • 所有版本

 

壓縮:常見問題:


1.增量備份和完整備份是否會使用相同的磁碟空間?
 

在理想情況下是如此。但實際上,由於以下原因,完整備份使用的空間比增量備份多一點。這些原因也說明為什麼在資料沒有變更後進行完整備份仍會消耗大量的空間。

  • 中繼資料大約佔用邏輯備份大小的 0.5%。假設完整備份的邏輯大小為 100 GB,增量備份的邏輯大小為 2GB。假設增量壓縮為 1GB。完整則至少需要 1.5GB。
  • DD 壓縮引擎為了提升效能會重寫部分重複的資料區段。變更的資料位置越差,重複寫入的項目就越多。重複項目之後會透過「filesys cleaning」回收。我看到大約 2% 的邏輯大小重寫為重複項目。假設此為重複等級,則完整備份可能需要 1GB (壓縮) + 0.5GB (中繼資料) + 2GB (重複) = 3.5GB。寫入的重複數量可以透過系統參數進行控制,但我們通常不會在欄位中調整此參數。
  • 根據 NFS 用戶端傳送資料的順序,不同備份之間的資料分段可能會略有不同。此順序不是決定性的。分段演算法通常會允許移位和重新排序。但是,它也會產生一些「強制」分段,這些分段容易發生移位和重新排序。通常約有 0.2% 的強制分段,因此可以預期會使用更多的空間。

2.「filesys show space」和「filesys show compression」顯示不同的數字:
 

「filesys show space」根據儲存資料的邏輯大小以及執行命令時使用的磁碟空間提供壓縮率。

「filesys show compression」根據每個檔案在建立時的壓縮方式提供壓縮率。

「filesys show compression」主要用於支援和偵錯。如果有檔案刪除,「filesys show compression」會高估壓縮率。

例如,假設第一個完整備份為 2 倍壓縮。無任何資料變更的後續完整備份為 200 倍壓縮。將第一個完整備份刪除。「filesys show space」會顯示 2 倍的壓縮率。「filesys show compression」現在會顯示 200 倍的壓縮率,因為目前唯一存在的檔案在建立時為 200 倍壓縮。

在上述範例中,在第二次備份後,「filesys show space」會顯示約 4 倍的累積率。如果繼續執行更多備份而不刪除,則累積率將逐漸改善至 200 倍。

還有一些其他細微的區別:

  •  「filesys show compression」並未考慮容器層級的浪費,因此會進一步高估壓縮率
  •  「filesys show compression」並未考慮全域壓縮重複項目排除的情況,因此低估壓縮率
  •  「filesys show compression」可提供每個檔案或每個目錄的資訊,而「filesys show space」則僅限於整個系統
  •  「filesys show compression」提供全域和本機壓縮之間的細項,而「filesys show space」則沒有
 

參考資料

 
  • 為什麼「filesys show space」和「vtl tape show summary」的壓縮率會不同?

「vtl tape show summary」中顯示的壓縮率旨在符合「filesys show compression /backup/vtc」。

一般來說,此 VTL 命令可能會提供一個可選的篩選器來選取磁帶匣的子集,且壓縮應與該卡匣子集上的「filesys show compression」相符。

但是,由於 VTL UI 代碼中的錯誤,「vtl tape show summary」中顯示的壓縮是錯誤的。這是已知問題,已在版本 4.5.0.0 中解決。
 

  • 為什麼「filesys show compression last 24 hours」與 VTL 的預期不符?

對於 VTL,「filesys show compression last 24 hours」等命令的輸出通常無法滿足根據例如「system show performance」等其他來源的期望。

發生此問題是由於「filesys show compression」(fsc) 中的特殊性。一般來說,「filesys show compression」會在所選檔案中顯示累積統計資料。限定詞「last 24 hours」會選取在過去 24 小時內更新的檔案。統計資料仍為自檔案建立,或上次截斷至零大小以來的累積。因此,如果檔案在過去 24 小時內有附加,「filesys show compression last 24 hours」將顯示其在過去 24 小時之前的累積統計資料。

在非 VTL 環境中,備份檔案僅寫入一次,因此更新的檔案和建立的檔案之間沒有太大差異。有了 VTL,備份可附加至現有的磁帶檔案。例如,考慮一個已填滿 50GB、容量為 100GB 的磁帶。如果在過去 24 小時內將 10GB 的資料附加到此磁帶,「filesys show compression last 24 hours」會顯示該檔案的「原始位元組」寫入於 60GB。
 

  • 如何計算累積壓縮率?

個別壓縮率非線性相加。

假設第一個完整備份為 2 倍壓縮,則第二個完整備份為 20 倍。累積壓縮不是 (2+20)/2 或 11 倍,而是 2/(1/2+1/20) 或 3.64 倍。

一般來說,壓縮率較低比較高者對累積壓縮率的影響更大。

假設第 i 個備份的邏輯大小為 si 且壓縮率為 ci。則可以按如下方式計算 k 備份的累積壓縮率:

C = (總邏輯大小)/(總使用空間)
總邏輯大小 = s1 + s2 + ...+ sk
總使用空間 = s1/c1 + s2/c2 + ... + sk/ck


通常,邏輯大小大致相同。在這種情況下,上述計算可簡化為以下內容:

C = k/(1/c1 + 1/c2 + ... + 1/ck)


例如,如果第一個完整備份為 3 倍壓縮,且每個後續完整備份為 30 倍壓縮,保留期為 30 天,則使用者會看到 30/(1/3+29/30) 或 23 倍的累積壓縮。
 

  • Data Domain 壓縮如何運作?

此問題已在個別的 KB 文章中提供詳細解答:「瞭解 Data Domain 壓縮」Data Domain:瞭解 Data Domain 壓縮
 

  • Data Domain 是否支援多工作業?​​​​​​​

來自備份應用程式的多工作業資料會導致非常差的全域重複資料刪除。如需更多資訊,請參閱相關相關文章:「不支援備份軟體中的多工作業」Data Domain:備份軟體中的多工作業。 
 

  • 使用一對一目錄複寫時,為什麼複本顯示更好的全域壓縮?​​​​​​​

這通常是因為系統上寫入的重複分段層級存在差異:

  • 儲存在來源的資料與之前儲存在來源的資料相比,已重複資料刪除一次。
  • 以有線方式傳送的資料與儲存在複本的資料相比,已重複資料刪除一次。
  • 儲存在複本的資料已重複資料刪除兩次,一次是透過有線方式傳送資料時,另一次是將接收的資料寫入複本時。

 

由於重複資料刪除程序會留下一些重複資料,因此已經過多次重複資料刪除的資料重複項目較少。儲存在來源並以有線方式傳送的資料已重複資料刪除一次,因此它們大致相同,假設儲存在來源和複本的資料相似。儲存在複本的資料會重複資料刪除兩次,因此壓縮效果更好。

檔案系統清理會移除大部分的重複項目。因此,在來源和複本上執行清理後,其中儲存的資料量應大致相同。

 
  • 使用 lz、gzfast 和 gz 本機壓縮設定時,壓縮有什麼變化?
可透過下列命令變更 DDR 中使用的本機壓縮演算法:
 

filesys option set compression {none | lz | gzfast | gz}
 

警告:在變更本機壓縮類型之前,必須先關閉檔案系統。設定壓縮選項後,即可立即重新啟動。

 

通常,壓縮順序如下:

lz < gzfast < gz

 

粗略的區別如下:

  • lz 至 gzfast 可提供約 15% 壓縮改善,並耗用 2 倍 CPU
  • lz 至 gz 可提供約 30% 壓縮改善,並耗用 5 倍 CPU
  • gzfast 至 gz 可提供約 10-15% 壓縮改善


請注意,變更本機壓縮首先會影響在變更後寫入 DataDomain Restorer 的新資料。舊資料會保留其先前的壓縮格式,直到下一個清理週期為止。下一個清理週期會將所有舊資料複製轉送成新的壓縮格式。這會導致清理執行時間更長,並佔用更多 CPU。

如果客戶系統的 CPU 已經不足,特別是客戶同時進行備份和複寫時,這可能會減慢其備份和/或複寫。客戶可能想要明確安排一些時間來執行此轉換。

 

知識參考:

Additional Information

 

    Affected Products

    Data Domain

    Products

    Data Domain
    Article Properties
    Article Number: 000022100
    Article Type: How To
    Last Modified: 02 Oct 2024
    Version:  11
    Find answers to your questions from other Dell users
    Support Services
    Check if your device is covered by Support Services.