Mit Energieeffizienz Schritt halten
Summary: Branchenwebsites, -artikel und -Whitepaper warnen seit Jahren vor dem „Daten-Tsunami“. In der Regel liegt der Schwerpunkt dabei auf neuen Storage-Technologien, ebenso wichtig ist jedoch die Fähigkeit, diese riesigen Mengen an neuen Daten zu verarbeiten. ...
Symptoms
Seit mehr als einem Jahrzehnt kämpfen IT-Abteilungen und -Unternehmen mit dem überwältigenden Datenwachstum im Bereich Computing. Branchenwebsites, -artikel und -Whitepaper warnen seit Jahren vor dem „Daten-Tsunami“. In der Regel liegt der Schwerpunkt dabei auf neuen Storage-Technologien, ebenso wichtig ist jedoch die Fähigkeit, diese riesigen Mengen an neuen Daten zu verarbeiten.
Maschinelles Lernen und KI spielen in diesem Bereich eine wichtige Rolle. Im Gegenzug hat sich auch der Bedarf für größere Verarbeitungskapazitäten verstärkt, was zu immer höheren CPU-Kapazitäten und insbesondere zum jüngsten Anstieg des Einsatzes von Beschleunigungstechnologien (GPU, FPGA) geführt hat, um die für rechenintensive KI-Anwendungen erforderlichen Ultra-High-Speed-Parallelverarbeitungsfunktionen bereitzustellen.
Sowohl für diese fortschrittlichen KI-Technologien als auch für andere steigende Compute-Anforderungen ist eine neue Energiearchitektur erforderlich, um mehr Verarbeitungskapazität effizient bereitzustellen. Auch wenn diese Möglichkeit der Neugestaltung mehrere Vorteile mit sich bringt, stellt sie kein einfach zu lösendes Problem dar.
Das Stromproblem
Der Drang hin zu höheren Verarbeitungskapazitäten bringt ein entscheidendes Problem beim Systemdesign mit sich, was die Stromversorgung betrifft. Die feinere Fertigungsgeometrie heutiger Prozessoren (weniger als 10 nm) ermöglicht ein schnelleres Stromumschalten, was zu weniger Verzögerung und Latenz führt und wiederum eine niedrigere Spannung von unter 1 Volt (V) für die Verarbeitung erfordert. Folgt man jedoch dem Ohmschen Gesetz (P=V*I), muss, wenn die Leistung (P) steigt und die Spannung (V) abnimmt, die Stromstärke (I) steigen. Dies wird zu einem Problem, da für die Bereitstellung einer höheren Stromstärke an den Prozessorchip oder das „Gehäuse“ mehr Sockelstifte verwendet werden müssen, um die höhere Stromstärke zu transportieren. Diese Sockelstifte könnten andernfalls verwendet werden, um weitere Systemfunktionen (z. B. I/O, Systemmanagement) bereitzustellen. Zum Beispiel vereinen SoC-Designs (System-on-a-Chip) mehr Funktionalität auf dem Chip selbst, so dass sich dann die Frage stellt: Wie lässt sich Strom effizienter bereitstellen, ohne dabei potenzielle Funktionalität zu verlieren? Dies ist ein wichtiger Punkt, da selbst kleine Effizienzgewinne bei Skalierungen signifikant werden. Ein Watt pro Server kann bei 100.000 Servern über den gesamten Lebenszyklus dieser Server Hunderttausende von Dollar einsparen.
Lösung mit höherer Spannung
Eine in der Branche immer mehr Akzeptanz findende Lösung ist die Bereitstellung einer höheren Spannung (z. B. 48 V) an den Server. Auf dem Open Compute Project (OCP) Summit 2016 hat Google eine Initiative zur Förderung von Servern und Verteilungsinfrastruktur mit 48 V als Standard für Rechenzentren angekündigt. Für dieses Modell sind mehrere Änderungen an der Versorgungsarchitektur (nachfolgend beschrieben) notwendig, die jedoch folgende Vorteile bieten können:
- Mehr Leistung für den Prozessor (ohne Reduzierung von Sockeln und Anschlussstiften und -größen)
- Weniger Energieverlust bei der Leistungsumwandlung (weniger und effizientere Umwandlungen)
- Weniger Komponenten auf der Hauptplatine (weniger Stromschichten und Leiterbahnbereiche)
- Kleinere Kabel, Anschlüsse und Sammelschienen
- Weniger Stromverteilungsverluste
- Höhere Leistungsgrenzen im Vergleich zu 12-V-Racks
Die Wahl fiel auf 48 V, da dafür keine besonderen Sicherheitsgrenzen erforderlich sind. Alles über 60 V gilt als „Hochspannung“ und erfordert zusätzliche Sicherheitsisolierung. Gemäß dem Ohmschen Gesetz ermöglichen 48 V also eine vierfache Reduzierung der Stromstärke, wobei aber immer noch eine Sicherheitsmarge verbleibt.
Es sollte erwähnt werden, dass 48-V-Server von Intel in den späten 1990er Jahren beworben wurden, sich dann aber aufgrund der begrenzten Spannungsreglerdichte und Leistungsumwandlungseffizienz sowie der höheren Komponentenkosten dieser Ära gegenüber 12-V-Serverdesigns nicht durchsetzen konnten.
Stromversorgung
Um die Vorteile des 48-V-Modells zu verstehen, ist es hilfreich, zunächst zu verstehen, wie die heutige Stromversorgung erfolgt. Heutzutage liefert ein Energieversorger in der Regel Wechselstrom (AC) mit 220 bis 240 V, der von der Stromversorgungseinheit (PSU) eines Systems wiederum in 12 V umgewandelt wird. Diese 12 V werden von einem Spannungsregler auf der Hauptplatine des Systems wiederum in 1,7 V umgewandelt (als Beispiel wird eine Intel-Implementierung verwendet). Diese 1,7-V-Schiene führt in etwa eine doppelt so hohe Spannung, wie sie letztendlich von der CPU benötigt wird, um die von der Hauptplatine bereitgestellte Stromstärke zu reduzieren, sodass weniger Stifte verwendet werden müssen, um das Prozessorsubstrat mit Strom zu versorgen. Der Strom muss jedoch noch einmal im Chip und Substrat umgewandelt werden, um die für den Prozessor benötigten Werte von unter einem Volt zu erreichen.
Abbildung 1: Das heutige 12-Volt-Versorgungsmodell
Ineffizienzen durch Stromverteilungsverluste
In jeder Umwandlungsphase geht ein gewisses Maß an Leistung/Energie verloren. Schätzungen zufolge liegt die Gesamtenergieeffizienz heutiger normaler Rechenzentren (von der Stromversorgung über Prozessoren bis hin zur Kühlung) in der Regel im mittleren 80-%-Bereich, obwohl die Ineffizienzen heutiger Stromversorgungseinheiten (PSUs) und integrierter Spannungsregler (VR) bereits deutlich über 90 % liegen. Außerdem geht diese Energie in Form von Wärme verloren, sodass Rechenzentren noch mehr Energie (und Kosten) aufwenden müssen, um die High-Performance-Systeme zu kühlen. Durch die Steigerung der Energieeffizienz (Vermeidung von Energieverlusten) können Rechenzentren letztendlich Kühlungskosten einsparen. Selbst eine Effizienzsteigerung um nur einen Prozentpunkt führt zu erheblichen finanziellen und ökologischen Vorteilen.
Elektrische Verteilungsverluste sind eine Funktion des Quadrats der Stromstärke (Leistung = I2R). Die Reduzierung der Stromstärke (I) durch einen bestimmten Widerstand (R) wirkt sich also auf die Höhe des Verlusts aus. Die Reduzierung der Stromstärke kann durch eine Erhöhung der Spannung (Ohmsches Gesetz) erreicht werden, wodurch das Interesse für das 48-V-Modell weiter zunimmt.
Neue Ansätze für die Stromversorgung
Zum jetzigen Zeitpunkt ist die effektive Stromversorgung von Hochleistungsprozessoren nach wie vor ein dynamisches Feld, in dem verschiedene Ansätze verfolgt werden. Im Folgenden werden zwei dieser Ansätze und deren Vorteile beschrieben.
Ein Ansatz zur Erzielung einer höheren Effizienz besteht darin, die 48 Volt direkt an das Substrat des Prozessorgehäuses zu liefern und sie dann im Substrat in unter 1 V umzuwandeln. Bei diesem Ansatz wird eine Umwandlungsphase eliminiert (höhere Effizienz) und die Abgabe einer niedrigeren Stromstärke an das Substrat ermöglicht (mehr verfügbare Stifte). Angesichts des äußerst begrenzten Platzes auf dem Gehäusesubstrat muss der Stromwandler für die Umwandlung von 48 V auf unter 1 Volt jedoch eine hohe Dichte und ein flaches Profil aufweisen, so dass die Implementierung dieser Technologie immer noch sehr komplex und teuer ist.
Abbildung 2: 48-Volt-Versorgungsmodell direkt auf das Substrat
Ein anderer Ansatz besteht darin, die 48 Volt an die Hauptplatine zu liefern. An dem Punkt wandelt ein Spannungsregler sie in eine Spannung von unter 1 V (z. B. 0,85 V) um und gibt sie dann direkt an den Prozessor ab. Bei diesem Ansatz wird zwar ebenfalls eine Umwandlungsphase eliminiert (höhere Effizienz), es muss jedoch eine höhere Stromstärke an das Substrat geliefert werden, sodass keine Stromversorgungsstifte eingespart werden können. Dieser Ansatz ist gebräuchlicher, da er weniger komplex und kostengünstiger ist als das Modell der direkten Versorgung.
Abbildung 3: 48-Volt-Versorgungsmodell an Hauptplatine
Weitere Vorteile
Der Umstieg auf das 48-V-Modell könnte noch weitere Vorteile mit sich bringen. Bei einer vollständig integrierten Rack-Skalierungslösung kann eine 48-V-Sammelschiene 4-mal weniger Stromstärke als eine 12-Volt-Sammelschiene führen, wodurch potenziell das 16-fache (I2) des Stromverteilungsverlusts eingespart werden kann, wenn für die Rack-Stromverteilung dieselbe Sammelschiene verwendet wird. Dies kann dazu führen, dass Kabel (oder Sammelschienen) dünner (höhere Drahtstärke) werden, da sie weniger Stromstärke führen müssen.
Da Komponenten (Steckverbinder, Kondensatoren, Kabel und Sammelschienen) kleiner werden, lassen sich sowohl Platz als auch Kosten einsparen und der freigewordene Platz eröffnet SystementwicklerInnen mehr Designoptionen.
Diese Vorteile vervielfachen sich auf Rack-Ebene. Das 48-V-Stromverteilungsmodell im Rack (ähnlich wie die 12-V-Stromverteilung auf Rack-Ebene) bietet die Möglichkeit, verteilte Gleichstrom-USVs (DC) zu implementieren, und macht sperrige Wechselstrom-USVs (AC) auf Anlagenebene überflüssig, die nicht nur voluminös, sondern auch unflexibel und schwer zu warten sind. Im Gegensatz dazu sind verteilte Gleichstrom-USVs in Verbindung mit modernen Akkutechnologien auf Lithiumbasis kompakter, leichter und wartungsfreundlicher. Ein weiterer Vorteil besteht darin, dass Pay-as-you-go-Vorgänge möglich sind, d. h. Kapazität kann dynamisch hinzugefügt werden, wann immer zusätzliche Kapazität benötigt wird.
Es ist immer noch eine 12-Volt-Welt
Unabhängig vom Interesse an 48-V-Effizienzen gibt es die heutigen 12-V-Server-Hauptplatinen bereits seit mehr als 20 Jahren. 12-Volt-Infrastruktur ist Massenware. Sie ist in großen Mengen auf der Welt vorhanden und die heutige 12-V-Lieferkette ist dementsprechend optimiert. Die Umstellung auf eine höhere Spannung wird sich also nicht in der gesamten Infrastruktur vollziehen. Beispielsweise werden Festplatten weiterhin 12 V verwenden, um von dem breiten Angebot an bewährten Optionen auf dem heutigen Storage-Markt zu profitieren, sodass Mainstream-Serverdesigns auf absehbare Zeit weiterhin eine 12-V-Stromversorgung nutzen werden. Dank des unersättlichen Hungers nach Verarbeitungsgeschwindigkeit ist jedoch zu erwarten, dass mehr Module und Hauptplatinen mit höherer Spannungsversorgung zum Einsatz kommen werden, wie bereits in den Bereichen KI und maschinelles Lernen zu sehen.
Um es ganz deutlich zu sagen: Es gibt immer noch nur wenige 48-V-Spannungsreglerlösungen, die für Mainstream-Hauptplatinen oder -Prozessorgehäuse geeignet sind (d. h. mit hoher Dichte, Effizienz und Kostenoptimierung). Allerdings arbeiten führende Energiemanagement-Halbleiterhersteller zusammen mit der Stromumwandlungsbranche intensiv daran und es ist davon auszugehen, dass in den kommenden Jahren praktikablere Lösungen auf den Markt kommen werden. Fortschritte in der Prozessor- und Gehäusetechnologie könnten eine Ära einläuten, in der die letzte Umwandlungsphase im Prozessorsilizium und/oder im Gehäusesubstrat erfolgt und die höhere Spannung direkt in sie gespeist werden kann.
Entscheidung
Eine der größten Herausforderungen für Rechenzentren liegt in der Verbesserung der Energieeffizienz. In vielen Fällen läuft das Streben nach höherer Effizienz darauf hinaus, Energie und die damit verbundenen Betriebskosten zu sparen und so die Gesamtbetriebskosten (TCO) zu senken. Angesichts der Notwendigkeit eines noch höheren Stromverbrauchs ist es daher umso wichtiger, den höchstmöglichen Effizienzgrad herauszuholen.
Dell EMC arbeitet mit einer Vielzahl von KundInnen zusammen, um einige der komplexesten und interessantesten Probleme im Bereich des maschinellen Lernens zu lösen. Die Extreme Scale Infrastructure-(ESI-)Gruppe hat es sich zur Aufgabe gemacht, mit den neuesten Energietechnologien Schritt zu halten und sie dort einzusetzen, wo sie sinnvoll sind, damit wir unsere KundInnen dabei unterstützen können, ihren unverminderten Bedarf an Verarbeitungskapazität effizient zu decken.
Wenden Sie sich an ESI@dell.com, um weitere Informationen darüber zu erhalten, was Dell EMC Extreme Scale Infrastructure mit Energietechnologien macht.
Cause
N. z.
Resolution
N. z.