Data Domain:Data Domain Virtual Edition 效能故障診斷
Summary: 針對 Data Domain Virtual Editions 和 Data Domain Management Console 的基礎 hypervisor、雲端 IAAS 提供者或主機儲存系統相關效能問題進行故障診斷的實用指南。
Instructions
VM 託管的應用裝置網路與連線能力:
乙太網路 I/O:
使用乙太網路彙總與主機應用裝置連接的資料傳輸時,不能假定存在乙太網路彙總組態即可正確平衡負載。應採用適當的負載平衡技術和頻寬,以確保對 VM 託管之應用裝置的 I/O 不受限制。
從 VM 託管的應用裝置到磁碟儲存裝置的連線能力:
連線類型和通訊協定會對 DDVE VM 的效能產生巨大的影響。此處列出了 VM 託管的裝置和磁碟儲存裝置之間最常用的連接類型。選項 1 提供最佳等級的效能,選項 5 是最差的連線選項。HBA 寫入快取設定也會大幅影響主機應用裝置和磁碟儲存裝置之間的效能。建議應對 HBA 啟用寫入快取,以確保主機應用裝置到磁碟儲存裝置達到最佳效能。
- Direct Attach Storage - RAID 5 或 RAID 6 中的 SAS 磁碟/SSD + 已啟用 HBA 寫入快取 (這是獲得最佳效能的首選)
- Direct Attached Storage - 無 RAID 的 JBOD + 已啟用 HBA 寫入快取 (效能可接受,但缺少建議的 RAID 保護)
- FC 連接的外接式 RAID 儲存裝置 (主動/主動 16 GB 或更快) (效能可接受,但可能會受到 FC 效能限制)
- iSCSI 10G (外接式磁碟儲存裝置) (不建議)
- NFS 10G (外接式磁碟儲存裝置) (不建議)
檢查實體儲存陣列及統計資料和效能:
磁碟品質與磁碟大小與磁碟數量:
密度較高的磁碟機 (例如 4+ TB) 每 TB 的 IOPS 數少於較小的磁碟機。因此,在數量較大的較小 TB 磁碟機上部署 DDVE 時,所提供的效能比在少數大型 TB 磁碟機上部署的 DDVE 更快。這是因為 DDVE 高度依賴於隨機讀取效能。DDVE 的正常工作負載可能會使實體磁碟大小與實體磁碟數量之間的衝突更為明顯,因此請嘗試確保您的儲存系統保持良好的平衡,並符合適當 DDVE 最佳實務指南中設定的期望。在本文中,我們不會著重在個別實體 HDD 和 SSD 類型及其效能上。此資訊可從磁碟製造商處取得。可以說,實體磁碟的效能越高,DDVE VM 的效能就越好。
儲存裝置故障診斷:
確認與 DDVE VM 相關聯之實體磁碟上的延遲情況。
若為 VMware,選取您的 VM,選取效能標籤,然後從下拉式清單中選取資料存放區,即可完成此作業。它會顯示特定 DDVE VM 的所有相關資料存放區。最後,選取進階按鈕,即可查看與 DDVE VM 相關聯之資料存放區的延遲情況詳細圖形顯示。

圖 1:資料存放區效能
要確定資料存放區的 I/O 負載,請計算資料存放區正在處理的 IOPS。
從與之前相同的圖形開始,但選取圖表選項,清除寫入延遲和讀取延遲,然後選擇每秒平均讀取要求和每秒平均寫入要求這兩個值。產生的圖表會向您顯示資料存放區正在執行多少 IOPS,並可讓您瞭解 DDVE 儲存「dev」對資料存放區施加的整體負載。此輸出也可用於區分資料存放區是否正與非 DDVE 應用程式的工作負載共用。

圖 2:圖表選項
如需更詳細的 IOPS 檢視,請檢查讀/寫比率。
依據設計,DDVE 通常從磁碟儲存裝置讀取的資料是寫入的 2-4 倍。它有一個例外,即在備份的第 0 代 (播種) 期間,此時將寫入全新的資料,且無法進行重複資料刪除。由於上述原因,DDVE 所使用的實體儲存裝置必須能夠有效率地處理 Data Domain 檔案系統中主要以讀取為中心但又混合的隨機工作負載。
相較於寫入,實體磁碟儲存陣列 (SSD、磁碟等) 在有效處理讀取方面可能會表現出截然不同的能力。實體磁碟儲存系統能夠提供卓越的隨機讀取 IOPS 效能,再加上低延遲 (低於 40 毫秒),是判斷資料存放區是否符合 DDVE VM 可接受效能特性的最關鍵因素。
如果需要更深入地調查儲存陣列或資料存放區效能,可使用名為 vscsiStats 的命令列工具。如需有關如何運用 vscisistats 取得區塊大小、延遲及更詳細的讀/寫效能統計資料的進一步詳細資料,請洽詢 VMware 支援部門。
確認資源佈建符合 DDVE 的需求:
通常,DDVE VM 效能問題的原因可歸咎於某些設定會限制 DDVE VM 的可用資源。一般來說,有限制的資源集區將只會用來限制 DDVE VM 的整體效能,因此不鼓勵使用。反之,有一些資源保留可改善 DDVE VM 的整體效能。在部署、故障診斷或調整 DDVE VM 效能時,請務必針對您的組態參閱 DDVE 最佳實務和管理指南。
透過選取資源分配標籤開始驗證資源分配。接下來,從 VM 集區中選取要進行故障診斷的 DDVE VM。在檢視區段中,選取 CPU,然後檢查該集區內的所有 VM (假設發生問題的 VM 也在該這裡)。請確定將「限制 MHz」設定為無限。不鼓勵限制 DDVE VM 的 CPU 資源,這樣會導致效能降低。

圖 3:資源分配
接下來請確認分配給 DDVE VM 的記憶體資源。確認記憶體資源是否已正確「保留」並設定為無限,以確保最佳效能。不鼓勵為 DDVE 設定記憶體分配限制,這會導致效能降低。

圖 4:記憶體資源
在「儲存」標籤下,確認儲存 IOPS 沒有任何限制。選取儲存按鈕並檢視磁碟/資料存放區。與 DDVE VM 相關聯之每個磁碟的「限制 IOPS」值必須設定為無限值。

圖 5:儲存資源
對於前面提到的三個資源類別,請注意 % 共用值。% 共用值指示特定 VM 從整個資源池中提取的共用百分比。「共用值」是相對的,不是絕對的。但是,請確保集區中所有裝置的值之間沒有太大差異。例如,預期為1000、2000 或 3000,但是,10、5、4000 等值則表示異常差距與資源共用不均衡現象。如果任何單一 VM 的值差異很大,則必須考慮修改「共用值」設定。
檢查 DDVE VM 的效能統計資料:
高效率執行的 DDVE VM 需要不受限制的資源存取,以確保達到最高效能。DDVE 會大量使用記憶體和 CPU,如果加以限制不可能會沒有問題。當 DDVE VM 進入生產後,我們可以利用效能標籤下的圖形與圖表來評估其資源使用狀況。我們可以使用這些圖表來確定其工作效率。
CPU
選取您要進行故障診斷的 DDVE VM。接下來,選取效能標籤。在顯示切換至的位置,從下拉式清單中選取 CPU。在此檢視中,您可以評估 DDVE VM 正在耗用的 CPU 數量和百分比。如果 DDVE VM 使用的 CPU 百分比佔整體資源的比例很高,我們便可假定託管的應用裝置可能不適合在執行 DDVE VM 時榨乾其資源。

圖 6:CPU 效能
記憶體
如果 VM 的回應速度緩慢,則表示 CPU 可能有排程問題。若要評估 CPU 效率,請從上一個圖表開始,然後再次選取圖表選項。清除所有計數器,然後選取就緒。這會顯示虛擬 CPU 的就緒時間。毫秒值表示 VM 已準備好啟動的時間,但 hypervisor 無法及時將 CPU 指派給工作。為了獲得最佳的 DDVE VM 效能,我們希望看到這個值低於 8 毫秒。

圖 7:CPU 就緒時間
記憶體效能和可用性也可能是限制整體 DDVE VM 效能的一個因素。如果 DDVE VM 未使用所需的保留實體記憶體量設定,則會產生使用中警示。在 DDVE CLI 執行 # alerts show current 以檢查使用中警示並視需要加以解決。
如果 DDVE VM 沒有足夠的可用記憶體資源,DDVE VM 會將其記憶體頁面交換至磁碟來回應。這是我們不希望發生的情況,並且會導致效能嚴重降級。若要評估 DDVE VM 的使用中記憶體用量,請先選取效能標籤,然後從切換至方塊中選取記憶體。
圖形預設顯示「使用中」、「已授予」、「氣球」和「已耗用」記憶體值。為獲得最佳效能,請確保使用中記憶體大約為已授予記憶體值的 35-50%。每當使用中記憶體值接近已授予記憶體的 60% 時,您便可進入在 DDVE VM 內進行交換的情境。

圖 8:記憶體效能
確認 DDVE VM 是否符合「最佳實務」和建議的組態:
故障診斷效能問題時,需要檢查許多事項,並從 DDVE VM 本身收集記錄。開立 DDVE 支援案例之前,請先確認 DDVE 組態是否符合建議的最佳實務和建議的設定。請參閱支援網站上的說明文件,瞭解您正在執行的 DDVE 版本和託管的平台。
收集效能統計資料:
- 從下列 CLI 命令和工具收集結果,以評估基礎磁碟儲存,並確保組態符合支援所選 DDVE 容量所需的效能等級。
- ETA 495989:Data Domain Virtual Edition:當磁碟分析工具針對 Data Domain Virtual Edition 磁碟區執行時,可能會發生資料遺失的情況
- 為每個連接至 DDVE 的磁碟 dev 執行磁碟評估測試 (DAT)。DDVE 系統管理員指南的「效能監控」一節提供有關何時及如何使用 DAT 工具的詳細指示。
- 根據消化的 I/O 類型執行 DAT 測試。可使用
with-vnvram選項 (如果您主要使用 CIFS/NFS 寫入備份)。有些使用者使用 Boost 來執行備份,然後使用 NFS 取得讀取存取權。如果是這樣,則不需要使用with-vnvram旗標。 - 雲端部署的 DDVE (Microsoft Azure、Amazon AWS) 不支援使用 DAT 工具。
- 用於收集資訊以進行效能故障診斷的 DDVE CLI 命令:
#alerts show current#system vresource show required#system vresource show current#storage show all(確認轉軸群組指派是否符合最佳實務)#cd /ddr/var/log/debug/kern.info/disk_perf/perf.log(檢閱每個裝置的延遲與 IOPS)#system show performance(在正常 DDVE I/O 載入期間使用最佳語法縮小 CLI 輸出的檢視範圍)#system show perf custom-view protocol-latency duration 1 hr interval 3 min#system show perf custom-view utilization duration 1 hr interval 3 min#system show perf custom-view iops duration 1 hr interval 3 min#system show perf custom-view streams duration 1 hr interval 3 min
#disk show performance <dev2>(可以輸入多個 dev 以獲得完整檢視)
Disk Read Write Read+Write KiB/sec IOPs Resp(ms) Ops >1s KiB/sec IOPs Resp(ms) Ops >1s MiB/sec IOPs Resp(ms) Random Busy ---- ------------------------------ ------------------------------ ---------------------------------------- ---------------------------------------- ---------------------------------------- dev2 0 0 3.63 0 0 0 7172.87 4801 0.000 0 2486.26 81.64% 0.01% ---- ------------------------------ ------------------------------ ---------------------------------------- ---------------------------------------- ----------------------------------------
- 使用 # vserver CLI 收集 DDVE 效能資訊使用 # vserver CLI 收集 DDVE 效能資訊
#se # vserverI/O 載入期間的輸出。(如果在建立套裝之前已設定並啟動 VServer,則輸出屬於套裝上傳的一部分。)
SE@localhost## vserver config set host 12x.xxx.90.xx The SHA1 fingerprint for the vServer's CA certificate is D1:71:7C:57:3F:3D:3D:3xxxxxxxxxxxxxxxx Do you want to trust this certificate? (yes|no) [yes]: yes Enter vServer username: xxxxxxxx Enter vServer password:xxxxxxxxxxxx vServer configuration saved. Started periodic collection of DDVE performance information at/ddvar/log/debug/vserver/ddveperf.log
- 建立並上傳目前的支援套裝,包括
vserver和disk_perf記錄。
vserver 或 disk_perf 。這些項目必須手動上傳或新增至套裝。
#support bundle create default#support bundle create files-only /ddvar/log/debug/platform/disk_perf/perf.log#support bundle create default with-files /ddvar/log/debug/platform/disk_perf/perf.log /ddvar/log/debug/vserver/ddveperf.log
實用影片:
Dell PowerProtect Data Manager - Microsoft Azure 上的部署與組態
持續時間:00:06:06 (hh:mm:ss)
隱藏式輔助字幕:提供多種語言版本。使用 CC 圖示與設定圖示變更隱藏式輔助字幕語言。
Dell PowerProtect Data Manager - Amazon Web Services 上的部署與組態
持續時間:00:05:34 (hh:mm:ss)
隱藏式輔助字幕:提供多種語言版本。使用 CC 圖示與設定圖示變更隱藏式輔助字幕語言。
Additional Information
開啟具有 DD 支援的 SR 以故障診斷 DDVE VM 效能的範本
VM 主機組態
主機製造商、型號、版本和作業系統主機名稱?
Hypervisor 廠商 (VMware、Hyper-V、其他)?
主機 ESXi/Hyper-V 伺服器版本和組建號碼?
vSphere 用戶端或 Hyper-V Manager 版本和組建號碼?
這是叢集組態還是 HA 組態?
主機或 VM 組態最近是否有任何變更?
您的主機應用裝置是否有電池支援的快取、NVRAM 或其他類型的機制,以在意外關機時保存資料?
VM 主機儲存
儲存 RAID 組態和磁碟大小、速度、類型 (例如,RAID 6 - 3 TB - 7200 RPM - SATA)?
儲存系統連線類型 (NFS、FCP、iSCSI、SAS)?
DDVE 使用的儲存磁碟區和資料存放區是否與非 Data Domain 工作負載共用?
DDVE 使用的儲存裝置是否已啟用或停用寫入快取?
儲存組態最近是否有任何變更?
您對 DDVE 磁碟裝置使用完整佈建還是精簡佈建?
Data Domain Virtual Edition 組態
DDVE 作業系統版本和大小 (例如,DDVE 3.0 - 6.0.1.10 - 64 TB)?
DDVE 資料傳輸通訊協定 (例如,Boost、NFS、CIFS、NDMP、FCP)?
DDVE 工作負載 (例如,雲端、複製、備份、VTL)?
備份應用程式和附掛程式版本?
詳細問題說明
網路:
效能:
安裝和組態:
DD 檔案系統:
資料無法使用或資料遺失?
您目前是否有對與此 DDVE 相關的其他任何廠商開立的案例?
需要記錄
支援套裝 - #support bundle create default Data Domain:如何從 Data Domain Restorer (DDR) 收集/上傳支援套裝 (SUB)
vserver perf-stats - #support bundle create files-only /ddvar/log/debug/platform/disk_perf/perf.log
disk_perf/perf.log - #support bundle create files-only /ddvar/log/debug/vserver/ddveperf.log
「選用」VMware 記錄套裝 - 請參閱 VMware 自助服務網站的文章