Dell Unity:SP 可能會因為記錄膨脹而進入服務模式 (/nbsnas 分割區已滿 100%)
Summary: 由於記錄膨脹,陣列可能會進入服務模式 (資料無法使用) (Dell 可修正)
Symptoms
若為雙 SP 陣列,儲存系統的一個 SP 會進入服務模式,整個系統無法透過管理介面運作,包括 CLI、UI、REST API 和 SMI-S。這也可能表現為 SP 交替重新開機,直到兩個 SP 都進入服務模式。
如果 Unity 陣列的兩個 SP 都處於服務模式,則無法為 I/O 提供服務,因此這是資料無法使用 (DU) 的情況。
若為 VSA,單一 SP 可能會重新開機進入服務模式,或只是停留在正常模式,在任一情況下都會失去管理。
整個系統無法透過管理介面操作,包括 CLI、UI、REST API 和 SMI-S。
SSH 或 IPMI 應該可正常運作。IPMI 一律可運作,SSH 只有在陣列穩定後才能運作。
此問題可在 OE 版本 4.0.0.x 中找到,並已在 OE 版本 4.0.1.x 中修正。
Cause
記錄來自 UI 和 REST 的每一個要求的記錄檔 /nbsnas/http/logs/mod_jk.log 位於掛接於主要 SP 的 /nbsnas 的檔案系統中。如果沒有日誌輪換機制,此檔的膨脹會繼續消耗文件系統的可用空間。在檔案系統上沒有剩餘空間後,其他內部消費者開始失敗。其中一個 SP 在偵測到這些元件重複故障時,會進入服務模式。
實驗室發現,當服務嘗試容錯移轉至次要 SP 時,也會遇到相同的症狀。SP 會交替重新開機數次,最後都會進入服務模式。
如果出現以下情況,客戶會看到此問題:始終使用 UI 或 REST API 配置存儲系統,或者在瀏覽器中打開 UI 並將其保留在那裡而不關閉。由於只有 UI 存取權限,通常客戶需要幾個月的時間才能看到此問題。如果客戶經常使用 REST API 從儲存系統查詢資料,則此問題發生的速度會更快。
發現第二個問題,其中升級到 Unity OE 4.0.1.8320161 可能會加劇問題,因為它可能會在 NDU 期間複製有問題的日誌檔,從而加速流程。
您可以檢查 /nbsbas 上的空間耗用量以確認是否可以。如果空間消耗很小或很低,您在 NDU 期間 不會 遇到此問題,因此不需要其他任何內容。
4.0.1.x 代碼已包含主要問題的修復程式,因此日誌輪換本身工作正常。
如果分割區顯示非常高的使用百分比,則可能必須刪除負責的記錄檔 (需要 Dell 支援)。
有關如何檢查空間使用方式以及要刪除哪些日誌的範例,請參閱註釋部分。
Dell 決定從 support.emc.com 移除適用於 Unity 和 UnityVSA 的 Unity OE 4.0.1.8320161。修訂後的 Unity OE 版本 (4.0.1.8404134) 於 2016 年 9 月發佈。
Resolution
若要解決此問題,技術支援部門必須取得陣列的根存取權限。
請聯絡 Unity 技術支援部門,並提及此 KB 文章:489057
Additional Information
如何檢查空間使用方式的範例:
spX:~> df -h /nbsnas Filesystem Size Used Avail Use% Mounted on /dev/c4nasdba1 1013M 55M 908M 6% /nbsnas
導致此問題的一個或多個記錄可在 /nbsnas/http/logs 中找到:
spx:~> cd /nbsnas/http/logs spx:/nbsnas/http/logs> ll -h total 975M -rw-r--r-- 1 root root 12K Sep 8 13:32 access_log -rw-r--r-- 1 root root 165K Sep 8 08:45 access_log.1.gz -rw-r--r-- 1 root root 239K Sep 8 06:59 access_log.2.gz -rw-r--r-- 1 root root 1.6M Sep 8 13:32 error_log -rw-r--r-- 1 root root 167K Sep 3 04:56 error_log.1.gz -rw-r--r-- 1 root root 495M Sep 8 13:32 mod_jk.log <<<<<<<<<< -rw-r--r-- 1 root root 475M Sep 8 08:45 mod_jk.log.1 <<<<<<<<<<
svc_dc -lcd (列出核心傾印) 可能也會顯示一些帶有「_mgmtd」尾碼的傾印。
這些是在 SP 因某些服務無法啟動 (因為 /nbsnas 已滿) 而當機時建立的。
spx:/> svc_dc -lcd ======================== [DC copier]: Available on backend: CP_dump_spb_CKM00161701xxx_2016-09-08_13_29_47_17275_ECOM core-dump_dump_spb_CKM00161701xxx_2016-09-08_08_46_23_778_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_18_19_11994_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_18_53_21524_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_41_05_11446_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_41_45_24620_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_13_28_30_3067_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_13_29_08_15086_mgmtd