PowerFlex:更新韌體以緩解 PowerFlex 自訂 (R650、R750) 節點上 NVDIMM 電池電力損失問題的程序
Summary: 更新韌體以緩解 PowerFlex 自訂 (R650 和 R750) 節點上 NVDIMM 電池電力損失問題的程序。
Instructions
問題說明
Dell PowerFlex 15G 系統支援包含 NVDIMM 的組態,NVDIMM 可提供細粒度功能所需的持久型記憶體。此程序包含將 iDRAC 和 CPLD 版本更新為下列版本的步驟:
- iDRAC 7.10.50.201
- CPLD 1.1.1
下載位置
- PowerFlex 自訂節點:https://www.dell.com/support/home/en-us/product-support/product/powerflex-custom-node/drivers
- (搜尋 iDRAC 和 CPLD)
新 iDRAC 版本會檢查啟用時的 NVDIMM 電池芯電壓。如果芯電壓低於定義的閾值,則會記錄錯誤。當 NVDIMM 電池在「就緒」和「啟用」狀態之間轉換時,它會記錄具有資訊嚴重性的事件。
新 CPLD 設計會追蹤 NVDIMM 電池的啟用狀態,並在固定時間後轉換回「就緒」狀態。
- 注意:由於上述問題,節點中的 NVDIMM 電池可能會損壞且必須更換。此程序考慮了這種可能性。
- 注意:iDRAC 和 CPLD 的此項更新必須遵循特定順序。該順序要求先升級 iDRAC,然後再更新 CPLD。這有助於識別電池是否故障。
程序概觀
為了完全解決這個問題,我們必須做到以下幾點:
- 識別系統中哪些 NVDIMM 電池電量不足。
- 由於未報告此特定狀況,我們需要將 iDRAC 更新至上述版本 (或更高版本)。如果此新版本的 iDRAC 偵測到已放電的 NVDIMM 電池,就會報告 BAT0021 或 BAT0017 錯誤。
- 將 iDRAC 更新至在系統中的所有節點上指示的版本
- 針對每一個報告為已放電且損壞的電池,要求更換 NVDIMM 電池。
- 在更換損壞的電池之前,請勿在 NVDIMM 電池損壞的節點上繼續 CPLD 更新。
- 更換電池可能無法完全充滿電,安裝後可能需要長達 75 分鐘才能充滿電。
- 若為具有良好 NVDIMM 電池的節點,您可以繼續 CPLD 韌體更新。
- 更換損壞的電池後,請繼續使用 iDRAC 更新 CPLD 韌體。
- 在完成更新之前,必須使節點處於「維護」模式
- 節點會重新開機,然後執行 CPLD 更新。
- 當節點在 CPLD 更新後重新開機時,使節點退出「維護」模式。
- 使節點退出「維護」後,將會開始「重建」和「重新平衡」作業。
- 注意:請等待「重建」和「重新平衡」完成,然後再繼續更新叢集中的下一個節點。
先決條件
- 此 CPLD 更新的最低 BIOS 版本為 BIOS 1.8.2 版。 (建議使用 1.10.2 或更高版本)
- 進行元件更換程序期間,客戶須負責下列工作:
- 將節點上的任何非 PowerFlex 應用程式遷移至另一部伺服器。
- 依照使用中作業系統的適當關機程序,正常關閉伺服器。
- 確定下列資訊可用:
- PowerFlex 節點的類型:實體節點或 HCI (Vmware) 節點
- PowerFlex 叢集及其節點的 IP 位址範圍、子網路和閘道 IP 位址
- 節點上 iDRAC 連接埠的 IP 位址範圍、子網路和閘道 IP 位址 (在初始部署程序期間定義)
- 在伺服器和 iDRAC 上設定的所有根和系統管理員密碼
- vCenter IP 位址和登入認證 (如果組態是 HCI)
詳細程序
步驟 1:更新 PowerFlex 叢集中所有節點上的 iDRAC。
這些節點上的 iDRAC 可在不將節點重新開機的情況下進行更新。更新 iDRAC 的程序如下。
請確定韌體映像已下載到本機系統上的特定位置。此程序需要 iDRAC 的韌體版本,下載位置列在程序的第一頁。
注意:確定叢集中所有節點上的 iDRAC 韌體都已更新,然後再繼續程序中的下一個步驟…。
- 登入 iDRAC9 Web 介面。
- 前往維護,然後按一下系統更新。隨即會顯示手動更新頁面。
- 從手動更新標籤中,選取本機作為位置類型。
圖 1:iDRAC9 更新畫面
- 按一下選擇檔案,選取所需元件的韌體映像檔案,然後按一下上傳。
- 上傳完成後,更新詳細資料區段會顯示上傳至 iDRAC 的每個韌體檔案及其狀態。如果韌體映像檔案有效且已成功上傳,內容欄會在韌體映像檔案名稱旁顯示 (+) 圖示。展開名稱以檢視裝置名稱、目前和可用韌體版本資訊。
- 選取所需的 iDRAC 韌體檔案。
- iDRAC 韌體更新不需要主機系統重新開機。按一下安裝以啟動更新。
- 若要顯示「工作佇列」頁面,請按一下工作佇列。使用此頁面檢視和管理您擱置中的韌體更新。您可以按一下確定重新整理目前的頁面,以檢視韌體更新的狀態。
- Life Cycle Controller 將會重新啟動,並會重設與 iDRAC 的連線。請等候幾分鐘,再登入 iDRAC。
注意:如果發生連線失敗,請參閱 HTTP 和 HTTPS FQDN 連線失敗 KB - https://www.dell.com/support/kbdoc/en-us/000193619
步驟 2:檢查節點的 NVDIMM 電池是否損壞。
iDRAC 7.10.50.201 及更新版本包含的程式碼,可每 5 秒檢查一次 NVDIMM 電池芯中的電量,如果芯電壓低於 1.5v 的閾值,則會在 iDRAC 系統事件記錄 (SEL) 中報告下列錯誤。
“BAT0021: The NVDIMM battery has reached the end of its usable life or has failed”“BAT0017: The NVDIMM battery has failed.”
如果報告上述其中一個訊息,即表示節點的 NVDIMM 電池損壞,需要更換。
- 注意:請勿繼續在 NVDIMM 電池損壞的情況下更新此節點上的 CPLD。在 CPLD 更新期間重新開機將會因電池損壞而當機且無法裝備 NVDIMM。
- 注意:請要求更換 NVDIMM 電池。
如果 iDRAC 未報告問題,則表示此節點上的電池狀況良好,不需要更換。CPLD 更新可以在此節點上執行,您可以繼續下一個步驟。
-
注意:PowerFlex 工程系統會針對任何表示 BAT0021 錯誤的節點報告節點健全狀況警告。 此行為可用來識別在 iDRAC 更新後,NVDIMM 電池故障
-
注意:如果出現 BAT0017 或 BAT0021 事件,但隨後是第 3 個事件 BAT0016,則不需要更換電池!
NVDIMM 工程部門建議如果發生第 3 個事件 (BAT0016),則不需要更換電池。BAT0016 The NVDIMM battery is operating normally.
如果所有三個電池警示 (BAT0021、BAT0020 BAT0016) 在不到一分鐘的時間內依序出現,則應視為誤報,且電池視為健康且不應更換。
步驟 3:準備節點 - 使 SDS 進入維護模式。
- 按照以下 PowerFlex 4.x 版或 PowerFlex 3.x 版下章節中的適當程序進入「維護模式」
- 選取正確的 PowerFlex 維護模式
- 如果節點的 NVDIMM 電池沒有損壞,建議進入即時維護模式 (IMM) 來更新 CPLD。
- 略過步驟 4 和 5 (更換電池),繼續 BIOS (步驟 6) 和 CPLD 升級 (步驟 7)
- 如果節點的 NVDIMM 電池損壞,則必須先更換電池,才能更新 CPLD。
- 在這種情況下,應使節點進入受保護的維護模式 (PMM),以計算更換電池充電所需的時間。
- 如果節點的 NVDIMM 電池沒有損壞,建議進入即時維護模式 (IMM) 來更新 CPLD。
- 注意:此程序會導致重新平衡過程啟動,因此建議將此程序安排在排定的維護時段中。
- 注意:如果在更換 NVDIMM 電池之前使用 PMM (步驟 4-5),您可以保持在 PMM 維護模式下,以進行 BIOS 和 CPLD 更新 (步驟 6-7)
PowerFlex 4.x 版,請參閱「Dell Powerflex 4.x 管理」指南」。
- 如果節點是作為主要 MDM 使用,請按照下列步驟切換 MDM 擁有權:
- 如果節點上已設定 SDR,請使 SDR 進入維護模式
- 使儲存資料伺服器 (SDS) 進入維護模式
- 如果這是 HCI (Vmware) 節點,請在執行上述步驟後,使 ESXi 進入維護模式
PowerFlex 3.x 版,請參閱「將 Dell PowerFlex 升級至 v3.6.x」指南。
- 使節點進入維護模式並關機
步驟 4:更換 NVDIMM 電池。
如需更換 NVDIMM 電池的指示,請參閱下方連結中提供之 PowerFlex 節點的 Solve 說明文件。
下載 15G 上適當節點類型 R650/R750 的「NVDIMM 電池」SolVe 說明文件。PowerFlex Custom Node > Replacement > 15G > [R650 or R750] > [PowerFlex 3.6 or 4.0] > NVDIMM battery - Linux-based
-
注意:請略過「更換 NVDIMM 電池」說明文件中的下列章節。
Remove the storage devices from PowerFlex.
不應移除儲存裝置的原因:
- 在此程序中卸下儲存裝置將導致不必要的完整節點重建,進而顯著延長維護時間。
- 由於這是計畫中的重新開機,而不是斷電事件,因此 NVDIMM 子系統不會依賴電池的電力來完成儲存作業。即使電池損壞,電源仍來自 PSU。
- 重新開機將會導致系統在開機時報告 NVDIMM 電池錯誤。但 NVDIMM 中的資料已儲存,且不會發生資料遺失的情形。
步驟 5:等待更換的電池充電
如果您已更換特定節點的 NVDIMM 電池,請開啟系統電源。系統將無法完全開機。由於更換的 NVDIMM 電池可能沒有足夠的電量,而使系統無法保護 NVDIMM 中的資料,因此 BIOS 將會停止等待電池充電。電池可能需要大約 60-75 分鐘才能充電完成。您可以在 60-75 分鐘後嘗試重新啟動系統,節點也應開啟電源並裝備 NVDIMM 子系統。
- 注意:根據每個節點更換電池所需要的 60-75 分鐘來規劃您的維護時段。
步驟 6:如有必要,請更新 BIOS
用於修正本 KB 中基本問題的 CPLD 版本需要最低 1.8.2 的 BIOS。(建議使用 BIOS 1.10.2 或更高版本)
PowerFlex 自訂節點部署需要特定版本的驅動程式、BIOS 和韌體,並經 Dell 驗證和確認合格。
如果目前的 BIOS 版本低於 1.8.2,請將韌體更新為 PowerFlex 自訂節點驅動程式和韌體對照表中發佈的最新版本。
- 請確定節點處於維護模式。如果沒有,請參閱「步驟 3」以取得指示。
- 若要下載 BIOS 版本,請參閱本 KB 的「下載位置」一節
- 注意:按一下「較舊版本」以選擇與目標對照表相符的版本。
- 繼續將 BIOS 升級至 1.8.2 版或更新版本。
- 15G 的 Dell PowerEdge BIOS 升級程序: https://www.dell.com/support/kbdoc/en-us/000222827/dell-technologies-recommends-upgrading-bios-and-idrac9-for-15th-generation-poweredge-servers
步驟 7:將 CPLD 更新至 1.1.1 版
先決條件:
- 確認 SDS 處於 PowerFlex 維護模式。若為 ESXi 節點,請確定 ESXi 也處於維護模式。如果沒有,請參閱本文的「步驟 3」以取得指示。
- 確定您的本機系統上有 CPLD 韌體映像。若要下載正確的 CPLD 版本,請參閱本文的「下載位置」一節。
- CPLD 更新會觸發節點重新開機。
注意:
- 在 iDRAC 韌體更新之後執行 CPLD 韌體更新。
- 請先更換 NVDIMM 電池,再繼續 CPLD 韌體更新。
CPLD 更新程序如下。
- 登入 iDRAC9 Web 介面。
- 前往維護,然後按一下系統更新。隨即會顯示手動更新頁面。
- 從手動更新標籤中,選取本機作為位置類型。
圖 1:iDRAC9 更新畫面 - 按一下選擇檔案,選取所需元件的韌體映像檔案,然後按一下上傳。
- 上傳完成後,更新詳細資料區段會顯示上傳至 iDRAC 的每個韌體檔案及其狀態。如果韌體映像檔案有效且已成功上傳,內容欄會在韌體映像檔案名稱旁顯示 (+) 圖示。展開名稱以檢視裝置名稱、目前和可用韌體版本資訊。
- 選取所需的 CPLD 韌體檔案。
- CPLD 韌體更新將需要主機系統重新開機。按一下安裝以啟動更新。
- 若要顯示「工作佇列」頁面,請按一下工作佇列。使用此頁面檢視和管理您擱置中的韌體更新。您可以按一下確定重新整理目前的頁面,以檢視韌體更新的狀態。
步驟 8:使節點退出服務模式。
PowerFlex 4.x 版,請參閱「Dell Powerflex 4.x 管理」指南」。
先決條件:確認您具有存取 PowerFlex Manager 的 IP 位址和系統管理員登入憑證。如有必要,客戶可以為您提供必要的資訊。
-
如果在 CPLD 更新後尚未開啟節點電源,請開啟節點電源。作業系統將會開機,所有 PowerFlex 程序都會自動啟動。
-
節點啟動後,從瀏覽器以系統管理員使用者身分重新登入 PowerFlex Manager。
-
在功能表列上,按一下監控 > 警示,並確認 SDS 或 SDC 主機,或 SDR 或 SDT (若適用) 沒有顯示中斷連線訊息。
- 若為 ESXi 節點,請執行下列步驟:
- 從 vSphere Web Client 中,確定節點在「主機」和「叢集」檢視中顯示為開啟和已連線。
- 在節點上按一下滑鼠右鍵,然後選取結束維護模式。
- 展開伺服器並選取「儲存 VM (SVM)」。如果 SVM 沒有自動開啟電源,請手動開啟電源。
- 使 SDS 結束維護模式:
- 如果節點上已設定 SDR,請將 SDR 從維護模式中移除。
PowerFlex 3.x 版,請參閱「將 Dell PowerFlex 升級至 v3.6.x」指南。
先決條件:確定使用者具有以下憑證 (可從系統管理員處取得):PowerFlex 簡報伺服器 IP 位址或主機名稱,用於存取 PowerFlex GUI
- 如果在 CPLD 更新後尚未開啟節點電源,請開啟節點電源。作業系統會開機,並自動啟動所有 PowerFlex 程序
- 使節點結束維護模式:使節點恢復作業
- 如果節點上已設定 SDR,請將 SDR 從維護模式中移除。
步驟 9:繼續處理叢集中的下一個節點
應針對叢集中的所有節點完成步驟 2 至步驟 8 的順序,一次一個。 升級所有節點後,程序即告完成