PowerEdge:如何識別和故障診斷風扇噪音的一些常見原因
摘要: 本文提供機會來瞭解和故障診斷 PowerEdge 伺服器中風扇噪音的一些常見原因。 它也與 100% 風扇速度相關。
說明
在 PowerEdge 伺服器中造成風扇噪音的常見原因有哪些?
- 風扇故障、風扇遺失、風扇受損
- 過時的韌體
- 與整合式 Dell 遠端存取控制器 (iDRAC)、基板管理晶片 (BMC) 或機箱管理控制器 (CMC、MX 機箱適用的 OME-M) 通訊中斷
- 已安裝不支援的硬體
- 第二次 CPU 升級不完整 (視系統類型而定) 或機器的一般升級需要已安裝不同類型的風扇
- 溫度超過正常的風扇速度覆蓋範圍 (工作量繁重,導致 CPU 用量和溫度過高、氣流不良)
- 系統機箱蓋已關閉或安裝不正確。侵入切換開關可能已觸發或無法正常工作。
- 組態設定
- 進氣溫度感應器故障,讀出錯誤
風扇故障、風扇遺失、風扇受損
在這種情況下,至少有一個風扇或風扇組件 (包含兩個風扇) 受損 (連接器、風扇葉片、風扇葉片框架)、遺失或故障。
為了識別導致問題的風扇組件或風扇,請依序執行下列步驟:
- 請查看前 LCD 或系統事件記錄,瞭解回報的風扇。
- 當哪一個風扇經確認為故障時,請檢查風扇編號在上蓋上的位置 (或參閱 您的伺服器使用者指南),並查看風扇是否正在運轉。
警示:在未關閉電源的情況下打開伺服器上蓋檢查風扇時請小心。內部元件可能很熱或尖銳,或兩者皆是。
- 如果風扇轉動速度較慢、根本不轉動或發出不規則的聲音 (刮擦聲、擦磨聲),請關閉機器並卸下風扇組件以進行檢查。
- 風扇擦磨和刮擦應會留下明顯的刮痕。
- 有時碎屑或灰塵會導致風扇變得不規則,在這種情況下,清潔風扇可能會有幫助。
- 檢查主機板或風扇控制板上的連接器和風扇上的連接器,查看兩者是否有任何損壞。
- 如果沒有風扇損壞或連線問題,請重新安裝風扇、護罩 (若有)、機箱蓋,然後重新開啟機器。
如果回報風扇仍為故障,請檢查此清單中的下一個可能性。
影片
識別 PowerEdge 風扇問題。
持續時間:00:00:00 (hh:02:31)
當可用時,可使用此影像播放器上的 CC 圖示選擇隱藏式輔助字幕 (字幕) 語言設定。
如何更換 PowerEdge R740 的風扇。
持續時間:00:00:53 (小時:分鐘:秒)
當可用時,您可以使用此影像播放器上的 CC 圖示來選擇隱藏式輔助字幕 (字幕) 語言設定。
過時的韌體
過時的韌體可能會導致風扇轉速過高 (發出噪音),但其他都正常。當部分韌體已更新,但感應器資料收集鏈中的某些元素卻未更新時,這種情況很常見。
以下是在下一步調查時應檢查更新的韌體版本清單:
- iDRAC、CPLD、BIOS
- PERC、BOSS、背板面、NVMe 磁碟機、SAS/SATA 磁碟機
- NIC、任何其他 PCIe 卡
- 電源供應器 (PSU)
- 任何其他硬體
當您想要使用 iDRAC 更新韌體 (請使用本文瞭解操作方式, PowerEdge:如何使用 iDRAC Web 介面遠端更新韌體),更新會依從左到右和從上到下的匯入順序列出。
每個清單項應用作可以立即更新更新的指南(但不是第一項)。
韌體為最新版本後,請前往清單中的下一個項目。
影片
如何使用 iDRAC9 更新韌體。
持續時間:00:01:16 (小時:分鐘:秒)
當可用時,您可以使用此影像播放器上的 CC 圖示來選擇隱藏式輔助字幕 (字幕) 語言設定。
與整合式 Dell 遠端存取控制器 (iDRAC)、基板管理晶片 (BMC) 或機箱管理控制器 (CMC、MX 機箱適用的 OME-M) 通訊中斷
當 iDRAC、BMC 或 CMC/OME-M 失去與感應器套件的連線時,風扇會回到未受管理的速度 (全速),以保護系統避免過熱。
這就是為什麼在第一次開啟風扇時,您會聽到風扇轉動的原因。iDRAC、BMC 或 CMC/OME-M 需要幾分鐘的時間才能開機並開始調節風扇速度。
LCD (若有) 會保持無文字。如果系統類型為模組化,則可能無法在機箱中開啟電源,因為無法與 CMC 通訊。
在這種情況下,請聯絡我們的支持團隊。
若要對此問題進行故障診斷,請執行下列步驟:
- 對於所有 iDRAC 系統,請按住 i 按鈕 16 秒。
- 若為含 BMC 的系統,或是步驟 1 無法運作:
- 關閉伺服器電源
- 從中拔下電源纜線。
- 按住電源開啟按鈕 10 秒鐘
- 重新連接電源纜線
- 等待約 2 分鐘
- 重新開啟伺服器
- 若為配備 CMC 或 OME-M 的系統:
- 如果已安裝兩個 CMC 或 OME-M,請按照容錯移轉程序以容錯移轉至其他裝置。
- 如果僅安裝一個 CMC 或 OME-M,請從機箱取下模組,等待 2 分鐘後重新插入模組,接著等待 20 分鐘。
- 如果重新安裝模組或容錯移轉無法運作,則必須重新啟動機箱,才能完整重新初始化。
- 為依賴機箱啟動的所有伺服器和連接裝置排定停機時間。
- 關閉伺服器電源,然後關閉機箱電源
- 取下電源線。
- 等待至少 10 分鐘或按住電源開啟按鈕 (若有)。
- 重新連接電源纜線。
- 重新開啟機箱電源,等待 20 至 30 分鐘。
- 重新開啟伺服器電源。
- 一切正常運作後,請從外部重新連接機箱,避免任何錯誤或風扇噪音。
如果您仍然遇到相同的風扇噪音,請繼續探索清單。
影片
PowerEdge:因與感應器套件中斷連線而導致的風扇問題
持續時間:00:02:53 (小時:分鐘:秒)
當可用時,您可以使用此影像播放器上的 CC 圖示來選擇隱藏式輔助字幕 (字幕) 語言設定。
已安裝不支援的硬體
不支援的硬體或尚未通過認證的第三方廠商硬體,可能會導致系統風扇以高於正常水準,或甚至以最高速度運作。
若要對此進行故障診斷,請執行下列步驟:
- 檢查裝置是否運作正常。
- 檢查裝置是否已正確安裝 [在正確的插槽類型中 (若適用)]
- iDRAC 可能會啟動特定裝置的風扇,若為未知,則為預設。
- 若要繼續,請卸下第三方裝置,並查看風扇噪音是否恢復正常。
- 如果是,請諮詢您的第三方廠商是否知道任何緩解措施,或對於在 Dell PowerEdge 伺服器中使用該裝置是否有任何建議。
如果您到目前為止都依照清單操作,但仍需要更多支援,請繼續依其指示進行。
影片
不支援的硬體會導致風扇噪音過大。
持續時間:00:00:38 (小時:分鐘:秒)
當可用時,您可以使用此影像播放器上的 CC 圖示來選擇隱藏式輔助字幕 (字幕) 語言設定。
第二次 CPU 升級不完整 (視系統類型而定) 或機器的一般升級需要已安裝不同類型的風扇
如果您已升級系統或正在升級系統,某些升級需要額外的零件 (風扇、記憶體 DIMM) 或不同的風扇類型 (從標準風扇升級為銀級甚至黃金級風扇)。
這些升級包括 (不完整清單,請洽詢您的銷售代表):
- 第二次 CPU 升級,適用於可單 CPU 購買且可容納兩顆 CPU 的系統 (視系統類型而定)
- 這可能需要取下擋片、使用含相同步進的額外 CPU、額外的記憶體,通常還需要一個額外的風扇
- 有些系統甚至可能需要將所有風扇從標準升級為銀級或黃金級風扇 (系統和升級特定需求)
- 適用於提供此支援之系統的 GPU 或 GPGPU 升級
- 這可能需要額外的擴充卡和支援的纜線,但根據原始配置和已經安裝的風扇而定,還需要額外的冷卻。
- 其他 PCIe 卡或 NVMe 磁碟機
- 安裝新零件後,可能需要進一步檢查一切是否符合冷卻預期,因為冷卻需求可能會需要額外的風扇或不同的更強大風扇類型。
如果您已遵循這些步驟,並且確定問題至今尚未列出,請繼續依照清單操作。
影片
在升級的 PowerEdge 伺服器中散熱
持續時間:00:01:49 (小時:分鐘:秒)
當可用時,您可以使用此影像播放器上的 CC 圖示來選擇隱藏式輔助字幕 (字幕) 語言設定。
溫度超過正常的風扇速度覆蓋範圍 (工作量繁重,導致 CPU 用量和溫度過高、氣流不良)
當系統處於高負載 CPU 下,但其他零件也會耗用更多電力時,會導致冷卻需求高於正常水準。
如果氣流因位於通風不良的空間或通常被視為灰塵堆積的障礙物而受限,則風扇速度也可能隨著時間推移而增加。
請檢查下列步驟,以瞭解出現哪一個問題,以及可採取哪些步驟來緩解或消除問題:
- 檢查 CPU 用量是否處於持續高負載 (90-100%)
- 如果是這樣,您可能需要檢查其原因以及這是否為預期行為 (這是否為由正常工作負載導致還是由未知原因造成,例如這是否為在最近更新或升級作業系統 (OS) 後開始發生)
- 如果認為行為不正常,請透過瞭解導致高負載的應用程式或服務來進一步調查負載。
- 如果此行為是由於看似正常的運作而發生,並且機器的軟體最近沒有更新 (或有意或無意地重新開機),則機器可能已達到其設計的最大值,且您的工作負載已超出其所執行的硬體。特別是如果您有多個系統具有執行類似工作負載類型的類似負載,並遇到相同的問題,則建議您與銷售代表交談,以瞭解可以進行哪些擴充或升級。
- 檢查進氣口通風口是否受阻或受限,或風扇本身是否受到任何阻礙或受限
- 隨著時間的推移,灰塵堆積相對正常。100% 無塵環境有時很難維持或不切實際,視具體情況而定。因此,必須對機器進行定期維護,可使機器擺脫灰塵並保持空氣流動,應該整合至所有維護計劃中以每年至少進行一次 (機器暴露在灰塵中的情況更嚴重則增加次數)。
- 如果您發現通風口或風扇受阻,請為機器安排維護並清除所有灰塵和阻礙。您可以在保持 Dell Technologies 設備清潔的指南中找到部分詳細資料。
如果您在依指示操作後遇到相同的問題,請進一步探索清單。
影片
PowerEdge:溫度超過正常風扇速度覆蓋範圍。
持續時間:00:02:36 (小時:分鐘:秒)
當可用時,您可以使用此影像播放器上的 CC 圖示來選擇隱藏式輔助字幕 (字幕) 語言設定。
系統機箱蓋已關閉或安裝不正確。侵入切換開關可能已觸發或無法正常工作。
有些系統需要闔上系統機箱蓋,並將侵入切換開關置於闔上狀態 (按下)。如果未安裝機箱蓋,並因此觸發入侵開關,則作為預防措施,風扇速度確實會增加到最大。
這也可能是因為這些系統的入侵偵測開關故障而發生,因為損壞的交換器一律為開啟,因此在此情況下一律觸發,表示系統機箱蓋已打開。
請檢查下列項目:
- 取下系統機箱蓋並重新裝回,同時確認是否蓋妥。
- 在測試臺或工作臺上對此進行測試非常有用,機架外部有可用的電源,以確保安全環境。
- 如此一來,也能更清楚地瞭解系統機箱蓋的安裝情況,以及對入侵偵測開關固定器或開關本身的任何損壞。
- 檢查切換開關是否位置正確,以及彈回時是否觸發、按下時是否停用。
- 觸發侵入切換開關確實會在系統事件記錄中產生項目 (可在系統的 iDRAC 中找到)
- 正確闔上系統機箱蓋、檢查是否蓋妥,並確保所有零件正確地安裝在一起。
如果在此之後您仍然需要進一步的協助,請參閱清單以瞭解另一個主題。
影片
如何更換 PowerEdge R750 的侵入切換開關。
持續時間:00:01:28 (小時:分鐘:秒)
當可用時,您可以使用此影像播放器上的 CC 圖示來選擇隱藏式輔助字幕 (字幕) 語言設定。
組態設定
iDRAC 可控制機器的散熱設定,確保所有零件均已正確冷卻。您可以手動變更這些設定,以增加或減少風扇速度的偏移,或是變更預設散熱設定檔。從預設設定檔變更設定檔也會提高風扇速度。
如果您不確定使用的設定,可以使用下列步驟將設定重設:
- 在 POST 期間,按下 F2
- 選取系統服務
- 尋找在右下角的預設並將其按下
- 選取退出
- 出現提示時,選取儲存並重新開機
- 重新開機後,請在 POST 期間再次按下 F2
- 選取 iDRAC 設定 > 散熱
- 請確定未設定或選取任何設定,且設定檔會顯示預設的散熱設定檔設定 (最大效能)。
- 完成並重新開機。
如果您已完成此部分且尚未找到解決方案,請考慮查看上面的清單。如果您已用盡此清單,請收集支援日誌 檔 [TSR](技術支持報告)並聯繫我們的支持團隊。
影片
重設您的 iDRAC 散熱設定檔。
持續時間:00:01:26 (小時:分鐘:秒)
當可用時,您可以使用此影像播放器上的 CC 圖示來選擇隱藏式輔助字幕 (字幕) 語言設定。
進氣溫度感應器故障,讀出錯誤
您可能會在 iDRAC 的系統事件記錄 (SEL) 中遇到警告訊息,告知進氣溫度失效或讀數高於預期 (測量時環境溫度與感應器輸出不相符)。感應器測量機器正面的溫度,而 iDRAC 會根據所提供的資料來計算冷卻需求。因此,感測器測量錯誤或不正確會導致風扇速度更高或最大化。
若要對此問題進行故障診斷,請執行下列步驟:
- 檢查 SEL 是否有警告或錯誤訊息
- 如果您尚未執行韌體區段中概述的動作,請依照該區段排除韌體為資訊不符的問題。
- 所有韌體更新完成後,請再次檢查 SEL。
- 檢查 iDRAC Web 介面中的進氣溫度,查看該溫度是否仍高於預期或完全沒有讀取。
- 如果問題仍然存在, 請收集新的 TSR 並 聯繫我們的支援團隊。
在這裡,您可以返回清單。