Dell Unity:如何收集 Unity 效能分析所需的必要資訊
Summary: 本文顯示如何收集記錄和資料以診斷 Unity 陣列上的效能問題。
Instructions
問題
-
連線主機的讀取或寫入 (或兩者) 效能不佳或回應時間偏高。
-
主機應用程式的回應時間增加或無法接受。
-
Dell Unity 陣列效能問題,需要效能分析。
效能問題可能有多個原因。這可能包括:網路組態、壅塞、主機組態、硬體故障、磁碟爭奪 (數個忙碌的 LUN 共用相同磁碟),或是儲存陣列處於最大使用率狀態。
在提供下列內容之前,Unity 技術支援無法完整調查及針對效能問題進行故障診斷:
- 服務資料檔案 (資料收集)
- UPA 檔案 (Unity Performance Archives)
- 詳細描述生產環境中所出現的症狀
若無法在此 Dell 知識文章 (KB) 中及時提供資訊,可能會導致解決方案需要更長的時間。
效能問題的詳細資料 (症狀、時間戳記等) 相當重要,可讓工程師知道要著重於何處 (時間、LUN、主機等),不需要花費數個小時來找出問題 (而不是原因)。如果缺少這些詳細資料,可能需要花費數小時來搜尋問題,而且可能只能分析一般效能統計資料。
範圍
客戶支援服務會調查效能案例,找出影響客戶現場的問題。效能調整 (以達到主機或應用程式的尖峰效能) 和重新配置是儲存管理員或解決方案架構師的工作,這不會在損壞-修正 SR 中處理。
若 SR 不包含已定義的問題,例如要求目前陣列的工作負載層級報告等,則不在故障修復支援範圍內。如需自助或需要協助來判斷陣列工作負載層級,可以使用 LiveOptics 服務。如需關於此選項的詳細資訊,請參閱下列文章:
詳細效能分析的資料和資訊需求
對於每個事件,技術支援需要以下涵蓋事件期間的記錄和資訊:
- 在問題發生後立即產生的服務資料檔案 (又稱為資料收集)。
- 如果複寫正在使用中,則需要來自兩個陣列的資料收集和 UPA 檔案。
- 涵蓋整個問題發生期間的 UPA 檔案 (Unity Performance Archives)。
- 如果問題出現在陣列之外,也可能需要主機 Grab 和交換器的記錄。
- 可能也需要 Unity 網路追蹤。
區塊問題
- 提供明確且詳細的問題說明:
- 問題發生於何時?(日期、時間與時區)
- 哪些 LUN 受到影響?
- 這對於縮小搜尋範圍非常重要。
- 是在發生問題的 LUN 上,是否已啟用資料減量或進階重複資料刪除?其他 LUN 是否已啟用資料減量?(請參閱「Unity 最佳實務白皮書」的 CPU 使用率一節 - 第 9 頁)
- 複寫是否正在使用中?提供複寫的 RPO 相關資訊,以及在複寫暫停時,效能問題是否會改善。
- 活動中是否有發生任何資料無法使用的情況?
- 在指定的時間內是否有任何其他項目執行?(備份、工作、批次、病毒掃描、主機磁碟最佳化 (TRIM/UNMAP) 等)
- 如果某件事情無法正常運作,之前是否可以正常運作?還是這是新實作/設定的一部分?最近是否有新增任何新的應用程式或主機?
- 測量效能的方式或其影響為何?主機端是否有延遲或錯誤?最終使用者是否回報速度緩慢?
- SAN 環境 (主機、交換器、陣列) 最近是否有任何變更?
- 影響 (受影響的應用程式、受影響的伺服器數量、受影響的使用者數量等)
- 問題發生的頻率?(隨時/經常/一次性/隨機)
- 受影響主機的名稱是什麼?
- 使用哪種拓樸?FC、iSCSI 或乙太網路?(如果使用 iSCSI,所有主機都必須停用 TCP 延遲 ACK。
- 如果問題可能與連線能力有關,支援部門可能會要求拓撲表。
- 網路內是否同時存在已知問題,或是最近升級過網路?此外,請檢查內部 LAN 上是否未使用 iSCSI,且所有使用的交換器都必須是企業級交換器。
檔案問題
- 提供明確且詳細的問題說明:
- 涉及哪些特定通訊協定?
- 範例:NFS (版本)、CIFS (版本)、NDMP、iSCSI、FTP 等
- 此問題是否與特定的匯出/共用、文件系統/LUN 有關?
- 問題會在一天中的什麼時間發生?(日期、時間與時區)
- 該時段的使用中工作負載為何?
- 範例:登入、登出、備份、批次工作等
- 涉及哪些主機?
- 範例:備份、VM、工作站、伺服器等?
- 有關應用程式的具體詳細資料。
- 網路組態看起來怎麼樣?
- 提供特定介面/NIC 的詳細資料。
- 網路介面是否在個別 NIC 上隔離?
- 範例:其專用 NIC 上的複寫流量
收集服務資料檔案 (資料收集)
若要收集服務資料檔案 (資料收集),請參閱 LKB 000023676。需要在陣列上執行服務資料檔案的輸出檔案,以顯示詳細的陣列組態,以及在陣列上發生的任何事件。支援部門建議客戶在事件發生後盡快收集服務資料檔案 (資料收集)。
請記住,服務資料檔案包含最後的完整 UPA 檔案 (一小時),和任何可用的 -tmp.archive UPA 檔案。這通常不足以完整檢閱效能,且需要額外的 UPA。
若要在服務資料檔案 (資料收集) 中找到 UPA 檔案,請前往 spx\cmd_outputs\metrics\
-
spx= 主要 SP -
範例:如果 SPA 是使用中 SP,則 UPA 會在
spa\cmd_outputs\metrics
收集 UPA 檔案
- 支援部門可能會要求其他 UPA 檔案。
- 與服務資料檔案 (資料收集) 不同,陣列會儲存最多 48 小時的 UPA 檔案。
- UPA 檔案看起來會類似於以下範例。每個檔名都包含檔案中第一個資料點的日期和時間。間隔為 10 秒,涵蓋一小時減掉 10 秒鐘。檔名中的日期和時間為 UTC/GMT。
- 以下範例中的最後一個 UPA 檔案是最新的歸檔 (
-tmp.archive) 的資料儲存應用程式和系統中執行。其中包含目前的效能資料,可從陣列複製 (僅可使用 SSH/CLI),以查看最新的資料。支援部門可以使用此檔案查看效能事件,不需要等到下一個小時。
- 以下範例中的最後一個 UPA 檔案是最新的歸檔 (
儲存在 Dell Unity 陣列上的 UPA 檔案範例:01/05/2017 10:59 AM 11,017,216 _default_20170105_150000.archive
01/05/2017 11:59 AM 11,017,216 _default_20170105_160000.archive
01/05/2017 01:00 PM 11,017,216 _default_20170105_170000.archive
01/05/2017 01:59 PM 10,983,424 _default_20170105_180000.archive
01/05/2017 02:45 PM 8,308,736 _default_20170105_190000-tmp.archive
選項 1:Unisphere 清單
此選項僅適用於 Unity OE 4.2 及更高版本。不會將所有可用的 UPA 列於此處。此 UI (Unisphere) 有所限制,只能列出某些可用的檔案。若未列出所需的 UPA 檔案,請移至選項 2 或使用 SSH/CLI。
選項 2:Unisphere 時間範圍
- 您可以選取一個時間範圍,讓系統提取可用的 UPA。
- 在收集記錄前確認問題發生的時間,確保僅下載必要的記錄。
- 請記住,「客戶時間」範圍為本機的瀏覽器時間,而且通常與目前的工作站時間相同。
- 此選項僅適用於 Unity OE 4.2 及更高版本

使用 SSH/CLI
也可以使用 CLI 存取 Unity 陣列上的更多 UPA (但其在選項 1 中並未列於 UI (Unisphere) 中)。
-
使用服務使用者和服務密碼登入
-
將想要的記錄複製到
/cores/service/userfrom/EMC/backend/metricsluna1/archives -
使用 WinSCP 或類似工具下載這些記錄
-
如果陣列位於 OE 4.5.X 或更新版本之上,將檔案通訊協定變更為 SCP
-
使用服務使用者和服務密碼登入
-
ll /EMC/backend/metricsluna1/archives/
cp /EMC/backend/metricsluna1/archives/_default_20230221_180000.archive.gz /cores/service/user
注意:如果您只要收集目前的 UPA,您可能會想要使用 |tail-10,因為後端有數十個可用的 UPA 檔案;但是,您可以列出所有清單。

主機資料收集
可能需要主機 Grab (或 EMC 報告) 的輸出檔案,特別是當發生的問題為特定主機專屬時。
-
前往 https://www.dell.com/support/home/ (Dell 支援網站) 並搜尋正確主機作業系統的 Grab 公用程式 (範例:ESXi 主機 grab)
-
下載公用程式和讀我檔案。
-
按照讀我檔案執行所選主機作業系統的公用程式。
交換器記錄
如果效能問題僅發生在特定路徑上,則可能需要交換器記錄。參閱下列 LKB 以取得指示 (根據使用的機型):
Brocade/Connectrix