Das Eintauchen in die Welt der generativen KI (GenAI) ist wie das Betreten eines neuen Reiches voller einzigartiger Herausforderungen und Chancen. So wie Dorothy eine Begleitung braucht, um sich in Oz zurechtzufinden, müssen Unternehmen ihre Rechenzentren auf die Anforderungen der KI-Infrastruktur vorbereiten.
Compute-Bedarf der Smaragdstadt
Die Bereitstellung einer KI-Infrastruktur bringt erhebliche Herausforderungen mit sich, angefangen beim Compute-Bedarf, von denen der größte auf das Training von Modellen entfällt. Auch wenn ein Unternehmen Modelle nicht von Grund auf neu trainiert, geht der Compute-Bedarf für das Inferenzieren großer Sprachmodelle – plus Vektoreinbettung für Retrieval Augmented Generation, oder RAG, und Finetuning – weit über den Bedarf heutiger Anwendungen hinaus.
Für die Abdeckung dieses Bedarfs weisen GPU-basierte Server für generative KI bei physischen Abmessungen, Gewicht, Verkabelung, Netzwerk, Stromversorgung und Kühlung um ein Vielfaches höhere Spezifikationen im Vergleich zu herkömmlichen Servern auf. Damit Unternehmen diese KI-Infrastruktur in ihren Rechenzentren betreiben können, bedarf es einer sorgfältigen Planung.
Beispiel: Der Dell PowerEdge XE9680-Server, von Dell für Anwendungsfälle „Inferenzieren“ validiert, ist ein 6-HE-Server mit 8 NVIDIA H100-GPUs. Aufgrund seiner robusten Bauweise und der hohen Kühlleistung wiegt dieser Server mehr als 110 kg. Ein Rack mit 4 XE9680-Servern braucht 20 bis 40 kW Strom, enthält mehr als 100 Kabel und wiegt über 550 kg.

In Abhängigkeit von Ihrem Bedarf und vom Umfang Ihrer KI-Bereitstellung können Sie die in diesem Blog gegebenen Empfehlungen in Ihrem gesamten Rechenzentrum oder auf einen speziellen KI-Bereich Ihres Rechenzentrums umsetzen.
Verstand für die Vogelscheuche: Kapazität des Rechenzentrums
In der klassischen Geschichte hätte die Vogelscheuche gern Verstand, und ihr Plan ist, Dorothy zu folgen, um den Zauberer zu finden. In der Welt der KI-Infrastruktur ist von entscheidender Bedeutung, einen Plan für die Größe des Rechenzentrums und eine Raumbelegung für die Installation von Servern und Racks, die Optimierung des Luftstroms und die Wartung aufzustellen.
Die Bereitstellungsspezialisten von Dell Services können gemeinsam mit Ihrem Team den Raum so auslegen, dass wirkungsvoll eine große Anzahl von Racks für die KI-Infrastruktur untergebracht sind und zudem zusätzliche Kapazitäten für zukünftige Erweiterungen verbleiben.
Der Schlüssel zu einer guten Auslegung von Rechenzentren ist, die Racks so anzuordnen, dass zu Servern und Infrastruktur ein problemloser Zugang für Wartungsarbeiten gegeben ist und das gilt auch für KI-Infrastruktur. Die Teams müssen einen Plan für regelmäßige Wartung aufstellen, in dem regelmäßige Überprüfungen und der Austausch von Luftfiltern, Lüftern und Kühleinheiten nach Bedarf aufgeführt sind.
Mut für den Löwen: Management wirkungsvoller Luftströme
Der Luftstrom ist entscheidend für die Bewältigung der von Servern und Infrastruktursystemen erzeugten Wärmemengen. Eine KI-Infrastruktur verbraucht weitaus mehr Strom als herkömmliche Server, wodurch mehr Wärme erzeugt wird und Luftstrom und Kühlung noch wichtiger werden.
Unternehmen sollten Strategien für ein strukturiertes Luftstrommanagement wie die Einhausung von Warm- und Kaltgängen und die direkte Einleitung der kühlen Luft in die Servereinlässe und die Ableitung der heißen Abluft von den Geräten weg umsetzen. Dadurch werden der Wirkungsgrad der Kühlung erhöht und die Energiekosten gesenkt.
Ein Herz für den Blechmann: leistungsstarke Stromversorgung und Kühlung
Ein entscheidender Faktor bei Servern mit hochdichten GPUs ist die korrekte Bewertung des Bedarfs an Stromversorgung und Kühlung. In die Planung muss eine Abschätzung des Strombedarfs jetzt und in Zukunft einbezogen werden. Nur dann ist sichergestellt, dass ausreichende Ressourcen und Backupsysteme für einen unterbrechungsfreien Betrieb vorhanden sind. In Rechenzentren, die nicht für die höheren Anforderungen einer KI-Infrastruktur ausgelegt wurden, können möglicherweise keine mit hochdichten GPUs ausgestatteten Server betrieben werden.
Erwägen Sie eine Investition in die neuesten Stromversorgungs- und Transformatortechnik mit höherem Wirkungsgrad. Das senkt nicht nur den Energieverbrauch, sondern steigert auch die Umweltfreundlichkeit des Rechenzentrums. Nutzen Sie unterbrechungsfreie Stromversorgungen (UPS) für den Notfall und energieeffiziente Stromverteilereinheiten (PDUs) für eine effektive Realisierung der Versorgung des Rechenzentrums mit Elektroenergie.
Das Dell Team unterstützt Sie bei der Berechnung der Kühllasten zur Bewältigung der von dichten KI-Workloads erzeugten Wärmemengen. Bei zunehmenden KI-Workloads reicht die herkömmliche Luftkühlung möglicherweise nicht mehr aus. Die Implementierung von Lösungen für die Flüssigkeitskühlung kann den thermischen Fußabdruck erheblich reduzieren. Solche Systeme ermöglichen eine wirkungsvollere Wärmeabfuhr und bringen bei Konfigurationen mit höherer Dichte Stabilität und Langlebigkeit.
Totos Weg: Komplexität von Verkabelung, Layout und Organisation
Wir dürfen Toto nicht vergessen! Wie Toto, der durch die Komplexität von Oz navigiert, umfasst unser Ansatz für die KI-Bereitstellung sorgfältige Lösungen für das Kabelmanagement mit Verlegung von redundanten Kabeln und mit Wärmemanagement. Verlegesysteme sind so zu konzipieren, dass Stromversorgungs- und Datenkabel getrennt voneinander verlegt werden. So werden Interferenzen vermieden und sowohl die Sicherheit als auch die Zuverlässigkeit des Systems erhöht.
Im Inneren des Racks darf kein Durcheinander entstehen, damit Luftströme nicht blockiert werden und Techniker ohne Probleme das richtige Kabel finden. Schlecht verlegte Kabel können zu Wärmestau und Problemen beim Umstecken von Infrastruktur führen.
Darüber hinaus versorgt bei einem GenAI-„Pod“ ein einzelnes Netzwerk-Rack oftmals mehrere GPU-Server-Racks. Das führt zu einer größeren Anzahl von Kabeln und zu längeren Kabeln zwischen den Racks. Für die systematische Organisation dieser größeren Anzahl an Kabeln und Verbindungen gehören zu Best Practices der Entwurf und die Implementierung eines strukturierten Verkabelungs- und Kennzeichnungssystems.

Damit bei zukünftigem Wachstum ein Ausbau möglich ist, sollten Sie anpassbare Kabelmanagementsysteme wie modulare Panels und verstellbare Racks installieren. Die Dell KI-Suite von Professional Services umfasst Bereitstellungsservices für die Infrastruktur, die Sie bei Layout und Management der Verkabelung unterstützen.
Zur weiteren Vereinfachung der Bereitstellung vor Ort kann Dell die KI-Infrastruktur bei sich im Werk aufbauen, konfigurieren, verkabeln und testen. Das reduziert den Arbeitsaufwand in Ihrem Rechenzentrum erheblich.
Dorothys Klugheit: Überlegungen zur Entsorgung von Verpackungsmaterial
Dell ist sich der ökologischen und logistischen Auswirkungen im Zusammenhang mit der Entsorgung von Verpackungsmaterial bewusst. Entscheiden Sie sich für recycelbare oder biologisch abbaubare Materialien für die Kabelverpackung und implementieren Sie Entsorgungsprotokolle, die Nachhaltigkeit in den Vordergrund stellen, die Einhaltung der örtlich geltenden Gesetze und behördlichen Auflagen sicherstellen und die Umweltbilanz des Rechenzentrums verbessern.
Unternehmen sollten ihre Rechenzentren zudem nach Möglichkeiten zur Senkung des Stromverbrauchs (und der daraus resultierenden Kühllasten) der vorhandenen Infrastruktur „durchforsten“. Dies kann einigen Bedarf der KI-Infrastruktur senken und die CO₂-Bilanz verbessern.
Die Lösungen von Dell zielen darauf ab, Abfälle zu vermeiden und die Entsorgungskosten wirkungsvoll im Griff zu behalten. Schließlich ist sicherzustellen, dass die bereitgestellte KI-Infrastruktur genauso umweltfreundlich wie technologisch fortschrittlich ist.
Folgen Sie dem gelben Ziegelsteinweg zum KI-fähigen Rechenzentrum
Die Hauptfiguren in „Der Zauberer von Oz“ meistern ihre Herausforderungen mit ein wenig Hilfe von ihren Freunden und Dell Technologies kann Ihrem Unternehmen mit fachkundiger Planung und Unterstützung helfen, den Weg zu einem GenAI-fähigen Rechenzentrum erfolgreich zu meistern.
Wenn Sie mehr darüber erfahren möchten, wie Sie Ihr Rechenzentrum auf die neue KI-Welt vorbereiten können, lesen Sie Dell Professional Services for GenAI oder wenden Sie sich an Ihre Dell Kontaktperson.


