跟上電源效率的步伐
Summary: 多年來,行業網站、文章和白皮書一直在提出有關「資料海嘯」的警告。通常,重點在於新的儲存技術,但同樣重要的是處理大量新資料的能力。
Symptoms
十多年來,IT 部門一直致力於應對運算環境中資料爆炸性成長的挑戰。 多年來,行業網站、文章和白皮書一直在提出有關「資料海嘯」的警告。通常,重點在於新的儲存技術,但同樣重要的是處理大量新資料的能力。
機器學習和 AI 正在這一領域發揮重要的作用。反過來,對更強大處理能力的推動也得到了加強,導致產生更強大的 CPU 能力,特別是導致最近加速器技術 (GPU、FPGA) 的使用激增,以提供運算密集型 AI 應用所需的超高速平行處理能力。
這些先進的 AI 技術及其他不斷增加的運算需求需要新的電源架構來有效提供更多處理能力,雖然這個重新設計的機會帶來了一些好處,但這不是一個容易解決的問題。
電源問題
對更高處理能力的推動引發了與電力傳輸相關的關鍵系統設計問題。 當今處理器 (小於 10nm) 更精細的製造幾何形狀允許完成更快速的電源切換,進而減少延遲,因此只需要更低的電壓 - 低於 1 伏 (V) - 便可驅動處理。 但是,根據歐姆定律 (P=V*I),如果功率 (P) 增加,電壓 (V) 降低,則電流 (I) 必定會增加。這形成了一個難題,因為要為處理器晶粒或「封裝」提供更高電流,就必須使用更多插槽插腳來傳輸增強電流 - 而這些插槽插腳原本可用於提升更大的系統功能 (即 I/O、系統管理)。例如,系統單晶片 (SoC) 設計在晶粒本身上提供了更多功能,因此問題就變成了:如何在不失去潛在功能的情況下高效地提供更高的功率。這一點至關重要,因為在大型規模下,即便是微小的效率提升也會帶來顯著效益;每台伺服器節省一瓦電力,在十萬台伺服器的生命週期中,可能節省數十萬美元的成本。
更高電壓解決方案
當今業界公認的解決方案之一是向伺服器提供更高的電壓 (如48V)。在 2016 年開放運算計畫 (「OCP」) 高峰會上,Google 宣布推動 48V 伺服器及配電基礎架構成為資料中心標準的倡議。此模型涉及供電架構的多項變革 (如下所述),可帶來以下優勢:
- 為處理器提供更多電力 (不含減少插槽和連接器插腳及尺寸)
- 電源轉換過程中的能量損耗降低 (轉換次數減少、效率提升)
- 主機板設計擁擠度降低 (電源層與佈線區域減少)
- 更小的纜線、連接器和匯流排列
- 更低的配電損耗
- 與 12V 機架相比,功率限制更高
之所以選擇 48V,是因為它不需要特殊的安全邊界。任何超過 60V 的電壓都會被認為是「高壓」,需要額外的安全隔離。因此,根據歐姆定律,採用 48V 電壓可將電流強度降低至四分之一,同時仍能維持安全餘裕。
值得注意的是,48V 伺服器曾於 1990 年代末由 Intel 推廣,但由於當時電壓調節器密度不足、電源轉換效率較低,以及元件成本較高,最終被 12V 伺服器設計所取代。
電力傳輸
要瞭解 48V 電源模型的優勢,首先要瞭解當今的供電方式。目前電力公司通常在 220V 至 240V 下提供交流電 (AC),而交流電又由系統的電源供應單元 (PSU) 轉換為 12V。它在系統主機板上的電壓調節器中再次從 12V 轉換為 1.7V (我們使用的是 Intel 實作範例)。這條 1.7V 電源線的電壓約為 CPU 最終所需電壓的兩倍,旨在降低從主機板傳輸的電流強度,進而減少向處理器基板供電所需的插腳數量。但是,必須再次在晶粒和基板上轉換功率,以達到處理器所需的低於一伏的電壓。
圖 1:現今的 12 伏輸送模型
配電損耗效率低下
在每個轉換階段,都會損失一定程度的功率/能量。據估算,當今傳統資料中心的整體能源效率 (從電力公司到處理器再到冷卻系統) 通常維持在 80% 中段範圍,儘管現今電源供應單元 (PSU) 與內建電壓調節器 (VR) 的效率低下問題已遠高於 90%。 此外,這些損耗的能量會以熱能形式散逸,導致資料中心必須消耗更多能源 (與成本) 來冷卻這些高效能系統。提高電源效率 (消除能源損耗) 最終能使資料中心節省冷卻成本。即使效率每提高一個百分點,也會帶來顯著的財務和環境收益。
配電損耗與電流的平方呈函數關係 (功率 = I2R)。 因此,降低特定電阻 (R) 中流通的電流 (I) 將直接影響能量損耗的程度。 透過提升電壓 (根據歐姆定律) 可降低電流,這進一步推動了業界對 48V 架構模型的關注熱度。
全新的電力傳輸方式
當前階段,如何為高效能處理器實現有效電力傳輸仍停留在動態發展領域;業界正持續探索多元技術路徑。下文介紹了兩種這樣的方法及其優點。
提高效率的一種方法是將 48 伏電壓直接輸送到處理器封裝基板,然後在基板上轉換為低於 1V。這種方法能消除一個轉換階段 (進而提升效率),並可向基板傳輸低電流 (增加插腳可用性)。 然而,鑒於封裝基板上的可用空間非常有限,從 48V 到低於 1 伏的功率轉換器必須具備高密度與薄型化特性,因此實現此技術仍具複雜性且成本高昂。
圖 2:直接到基板 48 伏輸送模型
另一種方法是向主機板輸送 48 伏電壓。 此時,電壓調節器將其轉換為低於一伏的電壓 (如 0.85V),然後直接將其輸送到處理器。 這種方法還消除了一次轉換 (提高效率),但必須向基板提供更高的電流,這將不會節省供電插腳的數量。這種方法更常見,因為它比直接輸送模型更不複雜且成本更低。
圖 3:48 伏至主機板輸送模式
其他優點
轉向 48V 模型也可以獲得其他一些優勢。若採用完全整合的機架規模解決方案,由於 48V 匯流排列的電流承載量比 12V 匯流排列減少 4 倍,若使用相同規格的匯流排列進行機架配電,可能可以減少高達 16 倍 (I2) 的配電損耗。 這項優勢可使纜線 (或匯流排列) 因承載電流降低而採用更細 (線徑更高) 的設計方案。
由於元件 (連接器、電容器、纜線和匯流排列) 的尺寸減小,因此可以節省空間和成本,並且隨著空間的釋放,系統設計人員可以使用更多的設計選項。
在機架層級,這些優勢會成倍增加。48V 機架式配電模型 (類似於 12V 機架層級配電) 提供了實作分散式直流 (DC) UPS 的機會,並消除了對笨重設施層級交流電 (AC) UPS 的需求,後者除了體積龐大外,還不靈活且難以維修。 相較之下,分散式 DC UPS 與現代鋰基電池技術相結合,更加緊湊,重量輕,且易於維修。 它還具有啟用隨用隨付功能的額外優勢,即在需要額外容量時動態增加容量。
這仍然是一個 12 伏的世界
無論對 48V 效率的關注度如何,現今的 12V 伺服器主機板已經存在了 20 年以上。十二伏基礎結構是一種商品 - 它在當今世界上大量存在 - 今天的 12V 供應鏈獲得了最佳化。因此,向更高電壓轉型的做法不會在基礎結構中全面普及。例如,硬碟仍將為 12V,以利用當今儲存市場中各種經過驗證的選項,因此在可預見的未來,主流伺服器設計將繼續採用 12V 電源。但隨著運算效能需求持續暴增,業界可預期更高電壓供應的模組化元件與主機板將加速普及,正如我們在 AI 與機器學習領域觀察到的趨勢。
需要明確說明的是,目前適用於主流主機板或處理器封裝應用的 48V 電壓調節器解決方案 (即兼具高密度、高效率與成本最佳化特性的產品) 仍然有限。 但領先的電力管理半導體供應商正與電源轉換產業緊密合作,積極投入研發,預期未來數年內將出現更多可行解決方案。 處理器與封裝技術的進步,可能開啟一個新時代,具高電壓轉換比的最終階段轉換工序,將可直接在處理器晶片內部和/或其封裝基板上完成,以便能夠將更高電壓直接饋入這些元件。
結論
資料中心面臨的最大挑戰之一是電源效率的提高。在多數情況下,追求更高效率的核心目標在於節省能源與相關營運成本,進而降低總體擁有成本 (TCO)。因此,隨著對功率使用的需求持續攀升,榨取極致能源效率的重要性也日益突顯。
Dell EMC 與各界客戶合作,協助解決某些最複雜且最有趣的機器學習問題。極端規模基礎架構 (ESI) 團隊致力於緊跟最新電源技術發展,並在適合場景中應用這些技術,以協助客戶以高效方式滿足其持續成長的運算需求。
如需瞭解 Dell EMC 極端規模基礎結構在電源技術領域的應用詳情,請聯絡 ESI@dell.com。
Cause
N/A
Resolution
N/A