Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

如何故障診斷 Dell PowerEdge 伺服器上 PERC 控制器的記憶體或電池錯誤

Summary: 您可以在這裡找到詳細資訊,瞭解如何故障診斷 Dell 伺服器中使用的 PowerEdge RAID 控制器 (PERC) 上的記憶體和電池問題。

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

本文提供如何故障診斷「偵測到記憶體/電池問題」的資訊。配接卡已還原,但快取的資料遺失。按下任何按鍵以繼續 Dell PowerEdge 伺服器上的 Dell PERC 控制器可能發生的錯誤和其他記憶體相關錯誤。
 

目錄:

  1. 在 POST 期間出現 RAID 控制器錯誤訊息
  2. 導致錯誤訊息的故障診斷情況
    1. 重新開機至作業系統
    2. 清除控制器快取
    3. 檢查實體 PERC 控制器
  3. 其他資訊
    1. PERC 電池維護
    2. 快取使用 
       

1.在 POST 期間出現 RAID 控制器錯誤訊息

在 POST 期間,RAID 控制器會顯示訊息:

偵測到記憶體/電池問題。配接卡已還原,但快取資料可能遺失。按下任一鍵以繼續。

如果是 LCD 上或執行診斷時出現的錯誤,請參閱下列文章:

解譯 LCD 和嵌入式診斷 (ePSA) 事件訊息。

回到頁首
 


2.導致錯誤訊息的故障診斷情況

當發生下列其中一種情況時,可能會正常發生此訊息。故障診斷相關事件也可能會使此訊息無法發生。

  • 作業系統表示關機異常。
  • 作業系統表示發生錯誤 (Windows 中發生藍色畫面)。
  • 自動電力中斷情況。

常見故障診斷步驟包括:
 

1.重新開機至作業系統

如果作業系統開機成功,再次重新開機應該不會顯示任何訊息。

2.清除控制器快取

  1. 適用於 SCSI 控制器的 CTRL-M (PERC 3、PERC 4)。
  2. 適用於 SAS/SATA 控制器的 CTRL-R (PERC 5、PERC 6 和更新的控制器)。
  3. 等待五分鐘讓快取內容可以清除。
  4. 重新開機回到控制器 BIOS。
    注意:如果錯誤仍然存在,則硬體錯誤的可能性會增加。請聯絡技術支援部門,以取得進一步的故障診斷步驟。
  5. 如果已消除錯誤,請開機至作業系統。
  6. 如果作業系統開機仍無法成功且/或錯誤仍然存在,這可能表示作業系統發生問題。如果您有有效的保固,請聯絡技術支援部門,以取得進一步的故障診斷步驟。

回到頁首
 

3.檢查實體 PERC 控制器

 

  1. 檢查 DIMM 和 DIMM 插槽是否有損壞。
    1. 關閉系統電源,然後從系統卸下電源纜線。
    2. 讓系統等待 30 秒,以使得剩餘的微量電力耗盡。
    3. 卸下 PERC 控制器。如需有關卸下和更換本系統零件的資訊,請參閱位於 Dell 支援的使用者指南。
    4. 卸下 RAID 記憶卡電池。插入 DIMM 後,請記得重新安裝記憶體電池。
    5. 從控制器卸下記憶體 DIMM (若適用)。
    6. 檢查 DIMM 插槽是否有任何彎曲的插腳或其他損壞。檢查記憶體 DIMM 的邊緣連接器是否有任何損壞。
  2. 如果控制器有內嵌記憶體或記憶體插槽受損,則需要更換 PERC 控制器。
  3. 如果記憶體受損,控制器記憶體需要更換。
  4. 如果沒有損壞,請更換記憶體 DIMM,然後重新安裝控制器。
  5. 將控制器記憶體換成已知良好的記憶體 (如果可能)。
    1. 沒有已知良好的記憶體可用:聯絡支援。
    2. 已知良好的記憶體不會發生錯誤:更換記憶體。
    3. 錯誤仍在已知良好的記憶體中:更換 PERC 控制器。
 

回到頁首



3.其他資訊


此錯誤訊息在 POST 期間顯示,指出控制器的快取未包含所有預期的資訊,或包含無法或尚未寫入磁碟機硬碟的資料。出現此錯誤的最常見原因包括:
 

  • 伺服器未執行正常關機程式 - 電力中斷和/或自動重新開機可能會導致未完成或損毀的資料保留在無法寫入磁碟機的快取中。
  • 快取記憶體有瑕疵 - 不良快取記憶體可能會導致資料損毀。這可能會導致與作業系統相關的問題,以及自動重新開機。
  • 伺服器關機時電池電力中斷 - 未使用 NVCACHE (非揮發性快取) 記憶體的控制器使用電池,可在伺服器未開機時,將快取內容保留一段時間 (24 至 72 小時)。電池排空後,整個快取內容會遺失,且控制器會辨識快取記憶體未包含所有預期的資訊。確實使用 NVCache 的控制器 (部分 H700/H800 控制器和較新的控制器,例如 H710、H710P、H810) 極不可能遇到這個問題,因為在大多數情況下,電池只需要維持電力 30 秒或更短時間。


回到頁首

1.PERC 電池維護


疑似故障或在 OpenManage Server Administrator (OMSA) 中顯示警告符號的 PERC 電池應執行手動記憶週期。  「記憶週期」會導致電池放電和充電,且應會將電池回復至完全正常運作的狀態。在某些情況下,可能需要進行多次「記憶週期」程序,才能將電池回復至有效的充電狀態。若要執行手動「記憶週期」,請在 OMSA 的「電池工作」下拉式功能表中選取開始記憶週期

SLN130018_en_US__1I_PERC_Battery_JM_V1
圖 1:OMSA 電池工作下拉式功能表

回到頁首

2.快取使用

硬體 RAID 控制器會利用快取 (資訊暫時儲存庫) 進行正常運作。正常運作的快取是由 DRAM 記憶體所組成,如同系統記憶體一樣,只有在接上電源時才會保留資料。

較新的控制器會使用 NVCache,這會在伺服器關機時使用。NVCache 記憶體同時包含 DRAM 記憶體 (用於正常運作) 和快閃記憶體 (非揮發性)。控制器電池 (若正常運作) 會在電力中斷時為 DRAM 記憶體供電,以便將內容複製到快閃記憶體中,以進行無限儲存。
 

快取的內容基本上可以分成三個部分:
  1. RAID 組態和中繼資料 - RAID 陣列的相關資訊,包括組態資訊、磁碟成員、磁碟角色等。
  2. 控制器記錄 - RAID 控制器會保留數個記錄檔案。Dell 技術人員仰賴 TTY 記錄作為主要記錄,為各種 RAID 和硬碟問題進行故障診斷。
  3. RAID 資料 - 這是要寫入個別硬碟的實際資料。資料會在寫入和回寫式快取原則模式中,寫入控制器的快取。


回到頁首


Cause

-

Resolution

-

Article Properties


Affected Product

PowerEdge, OEMR R720xd

Last Published Date

25 Mar 2022

Version

6

Article Type

Solution