Uw datacenter voorbereiden op een GenAI-wereld

"We zijn niet meer in Kansas" - Dorothy in 'De tovenaar van Oz'

In de wereld van Generatieve AI (GenAI) stappen is als het betreden van een nieuwe wereld, vol unieke uitdagingen en kansen. Net zoals dat Dorothy begeleiding nodig had om door Oz te navigeren, moeten organisaties hun datacenters voorbereiden om aan de eisen van de AI-infrastructuur te voldoen.

De rekenvereisten van de Stad van Smaragd

De implementatie van AI-infrastructuur brengt aanzienlijke uitdagingen met zich mee, te beginnen met de rekenvereisten, waarvan de zwaarste voor modeltraining zijn. Zelfs als een organisatie modellen niet vanaf nul traint, gaan de rekenvereisten voor inferencing van grote taalmodellen (plus vector-embedding voor Retrieval Augmented Generation of RAG, en verfijning) veel verder dan de vereisten die worden gebruikt voor de applicaties van vandaag de dag.

Om aan deze vereisten te voldoen, zijn de fysieke grootte, het gewicht, de bekabeling, het netwerk, de voeding en de koelingskenmerken van generatieve AI-servers met GPU vele malen hoger dan de overeenkomstige specificaties voor standaardservers. Organisaties hebben een zorgvuldige planning nodig om deze AI-infrastructuur in hun datacenters op gang te krijgen.

De Dell PowerEdge XE9680 server, die door Dell is gevalideerd voor gebruiksscenario’s voor inferencing, is bijvoorbeeld een 6U-server met 8 NVIDIA H100 GPU’s. Door de robuuste constructie en koelcapaciteit weegt deze server meer dan 90 kg. Een rack met 4 XE9680 servers verbruikt 20-40 kW voeding, bevat meer dan 100 kabels en weegt meer dan 450 kg.

Afhankelijk van uw behoeften en de schaal van uw AI-implementatie, kunt u ervoor kiezen om de aanbevelingen die in deze blog worden beschreven toe te passen op uw datacenter als geheel of op een speciale AI-sectie van het datacenter.

Het brein van de vogelverschrikker: datacentercapaciteit

In het bekende verhaal zegt de vogelverschrikker dat hij een brein nodig heeft en zijn plan is om Dorothy te volgen om de tovenaar te vinden. In de wereld van AI-infrastructuur is het van vitaal belang om een plan te hebben voor de grootte van het datacenter en de toegewezen ruimte voor server- en rackinstallatie, luchtstroomoptimalisatie en onderhoud.

Implementatiespecialisten van Dell Services kunnen met uw team samenwerken om de ruimte te ontwerpen voor het efficiënt verwerken van een groot aantal AI-infrastructuurracks en extra capaciteit te bieden voor toekomstige uitbreiding.

Het inrichten van de racks ter ondersteuning van eenvoudige onderhoudstoegang tot servers en infrastructuur is essentieel voor een goed datacenterontwerp en dit geldt ook voor de AI-infrastructuur. Teams moeten een regelmatig onderhoudsschema opstellen dat moet worden opgevolgd, met onder andere regelmatige controles en vervanging van luchtfilters, ventilatoren en koeleenheden indien nodig.

De moed van de leeuw: effectief luchtstroombeheer

De luchtstroom is van cruciaal belang voor het beheer van de warmte die door servers en infrastructuursystemen wordt gegenereerd. AI-infrastructuur verbruikt veel meer voeding dan traditionele servers en genereert meer warmte. Dit maakt luchtstroom en koeling nog belangrijker.

Organisaties moeten gebruikmaken van gestructureerde strategieën voor luchtstroombeheer, zoals het insluiten van warme en koude gangpaden en het rechtstreeks leiden van koele lucht naar serverinlaten en warme afvoerlucht weg van de apparatuur. Dit verhoogt de koelefficiëntie en verlaagt de energiekosten.

Het hart van de blikken man: geavanceerde kracht en koeling

Om GPU-servers met hoge dichtheid te ondersteunen, is het van cruciaal belang om de voedings- en koelingsbehoeften te evalueren. De planning moet beoordelingen omvatten van de totale voedingsbehoeften, nu en in de toekomst, om ervoor te zorgen dat er voldoende middelen en back-upsystemen aanwezig zijn om de bedrijfsactiviteiten zonder onderbreking te ondersteunen. Datacenters die niet zijn ontworpen voor de hogere eisen van AI-infrastructuur, zijn mogelijk niet uitgerust om GPU-intensieve servers aan te kunnen.

Overweeg te investeren in de nieuwste voedings- en transformatortechnologieën die een hoger rendement bieden. Deze verlagen niet alleen het energieverbruik, maar minimaliseren ook de impact op het milieu van de activiteiten van het datacenter. Gebruik UPS (Uninterruptible Power Supplies) voor noodvoeding en energie-efficiënte PDU’s (Power Distribution Units) om de stroom in het datacenter effectief te beheren en te distribueren.

Het Dell team helpt u bij het beoordelen van de koelingsvereisten voor het beheren van de warmte die wordt gegenereerd door compacte AI-workloads. Naarmate AI-workloads toenemen, is traditionele luchtkoeling mogelijk niet voldoende. Het implementeren van oplossingen voor vloeistofkoeling kan de thermische voetafdruk aanzienlijk verkleinen, waardoor een efficiëntere warmteafvoer, stabiliteit en levensduur zelfs bij configuraties met een hogere dichtheid mogelijk zijn.

Toto’s pad: complexiteit, lay-out en organisatie van kabels

Natuurlijk kunnen we Toto niet vergeten! Net als Toto die door de complexiteit van Oz navigeert, omvat onze AI-implementatieaanpak nauwgezette kabelbeheeroplossingen die overheadroutering en thermisch beheer ondersteunen. Transportsystemen moeten worden ontworpen om voedings- en datakabels te scheiden, interferentie tot een minimum te beperken en zowel de veiligheid als de betrouwbaarheid van het systeem te verbeteren.

In het rack is het belangrijk om de wirwar van kabels te verminderen om luchtverstopping te voorkomen en het voor technici gemakkelijk te maken om de juiste kabel te vinden. Slecht geleide kabels kunnen ervoor zorgen dat warmte zich ophoopt en problemen veroorzaken met de switchinfrastructuur.

Bovendien betekent het configureren van een Gen AI ‘pod’ vaak dat één netwerkrack meerdere GPU-serverracks bedient, wat resulteert in meer en langere kabels tussen racks. Om dit grotere volume aan kabels en aansluitingen systematisch te organiseren, omvatten best practices het ontwerp en de implementatie van een gestructureerd bekabelings- en labelsysteem.

Om toekomstige groei mogelijk te maken, implementeert u verstelbare kabelbeheersystemen zoals modulaire panelen en verstelbare racks. De Dell AI reeks professionele AI-services omvat implementatieservices voor infrastructuur om te helpen bij de lay-out en het beheer van kabels.

Om de onsite implementatie verder te vereenvoudigen, kan Dell de AI-infrastructuur in de fabriek bouwen, configureren, bekabelen en testen, waardoor de hoeveelheid werk die in uw datacenter moet worden gedaan aanzienlijk wordt verminderd.

Dorothy’s wijsheid: overwegingen bij het weggooien van verpakkingen

Dell is zich bewust van de ecologische en logistieke implicaties die de verwijdering van verpakkingen met zich meebrengt. Kies recyclebare of biologisch afbreekbare materialen voor kabelverpakking en implementeer verwijderingsprotocollen die prioriteit geven aan duurzaamheid, helpen voldoen aan wettelijke vereisten en het milieuprofiel van het datacenter verbeteren.

Organisaties moeten ook hun datacenters evalueren om kansen te vinden om het energieverbruik (en de daaruit voortvloeiende koelingsvereisten) van bestaande infrastructuur te verminderen. Dit kan helpen om een deel van de behoeften van de AI-infrastructuur te compenseren en de impact op de CO2-voetafdruk te verminderen.

De oplossingen van Dell zijn erop gericht om afval tot een minimum te beperken en de verwijderingskosten efficiënt te beheren, zodat de implementatie van de AI-infrastructuur zowel milieuvriendelijk als technologisch geavanceerd is.

Ga op weg naar een datacenter dat klaar is voor AI

Terwijl de hoofdpersonen in ‘De tovenaar van Oz’ hun uitdagingen hebben overwonnen met een beetje hulp van hun vrienden, kan Dell Technologies uw organisatie helpen om met deskundige planning en ondersteuning de reis naar een datacenter dat klaar is voor GenAI met succes te navigeren.

Voor meer informatie over het voorbereiden van uw datacenter op de nieuwe AI-wereld, raadpleegt u Dell Professional Services voor GenAI of neemt u contact op met uw Dell vertegenwoordiger.

About the Author: Matt Liebowitz

Matt Liebowitz is the Global Multicloud lead for the Dell Technologies Consulting Services Portfolio. He focuses on thought leadership and service development for multicloud, automation and data center related Consulting services. Matt has been named a VMware vExpert every year since 2010 and is a frequent blogger and author on a wide range of cloud related topics. Matt has been a co-author on three virtualization-focused books, including Virtualizing Microsoft Business-critical Applications on VMware vSphere and VMware vSphere Performance. He is also a frequent speaker at the VMware Explore and Dell Technologies World conferences.