At træde ind i en verden af generativ AI (GenAI) er som at træde ind i et nyt rige, fyldt med unikke udfordringer og muligheder. Ligesom Dorothy havde brug for hjælp til at finde rundt i Oz, skal virksomheder forberede deres datacentre til at håndtere kravene til AI-infrastruktur.
Emerald Citys beregningskrav
Udrulningen af AI-infrastruktur giver betydelige udfordringer, startende med beregningskrav, hvoraf de tungeste er til modeltræning. Selvom en virksomhed ikke træner modeller fra bunden, går beregningskravene til at færdiggøre store sprogmodeller – samt vektorintegrering til Retrieval Augmented Generationeller RAG og finjustering – langt ud over dem, der bruges til nutidens programmer.
For at imødekomme disse krav er GPU-drevne generative AI-serveres fysiske størrelse, vægt, kabelføring, netværks-, strøm- og køleegenskaber flere gange de tilsvarende specifikationer for standardservere. Virksomheder skal planlægge omhyggeligt for at få denne AI-infrastruktur op at køre i deres datacentre.
F.eks. er Dell PowerEdge XE9680-serveren, som Dell har valideret til inferensbrugsscenarier, en 6U-server med 8 NVIDIA H100 GPU’er. Takket være dens robuste konstruktion og kølekapacitet vejer denne server mere end 200 pund. Et rack med 4 XE9680-servere bruger 20-40 kW strøm, indeholder mere end 100 kabler og vejer over 1000 pund.
Afhængigt af dine behov og omfanget af din AI-udrulning kan du vælge at anvende de anbefalinger, der er beskrevet i denne blog, på dit datacenter som helhed eller på en dedikeret AI-sektion i datacenteret.
Fugleskræmslets hjerne: Datacenterkapacitet
I den klassiske historie siger fugleskræmslet, at han har brug for en hjerne, og hans plan er at følge Dorothy for at finde troldmanden. I AI-infrastrukturens verden er det vigtigt at have en plan for datacenterstørrelse og pladsallokering til server- og rackinstallation, optimering af luftgennemstrømning og vedligeholdelse.
Dell Services-udrulningsspecialister kan samarbejde med dit team om at designe pladsen, så den kan håndtere et stort antal AI-infrastrukturracks effektivt og tilvejebringe yderligere kapacitet til fremtidig udvidelse.
Placeringen af racks, så de understøtter nem vedligeholdelsesadgang til servere og infrastruktur, er afgørende for et godt datacenterdesign og gælder også for AI-infrastruktur. Teams skal etablere en regelmæssig vedligeholdelsesplan, der skal følges, herunder regelmæssige kontroller og udskiftning af luftfiltre, ventilatorer og køleenheder efter behov.
Løvens mod: Effektiv styring af luftgennemstrømningen
Luftgennemstrømning er kritisk for håndteringen af den varme, der genereres af servere og infrastruktursystemer. AI-infrastruktur bruger langt mere strøm end traditionelle servere og genererer mere varme og gør luftgennemstrømning og køling endnu vigtigere.
Virksomheder bør bruge strukturerede strategier for styring af luftgennemstrømningen såsom indeslutning af varme og kolde kanaler samt tilledning af kølig luft direkte ind i serverindsugninger og varm udsugningsluft væk fra udstyret. Dermed øges køleeffektiviteten, og energiomkostningerne reduceres.
Blikmandens hjerte: Avanceret kraft og køling
For at understøtte GPU-servere med høj tæthed er det afgørende at evaluere strøm-og kølebehov. Planlægningen bør omfatte vurderinger af det samlede strømbehov nu og i fremtiden og dermed sikre, at der er tilstrækkelige ressourcer og backupsystemer på plads til at understøtte drift uden afbrydelser. Datacentre, der ikke er designet til de højere AI-infrastrukturkrav, er muligvis ikke udstyret til at håndtere GPU-kompakte servere.
Overvej at investere i de nyeste strømforsynings- og transformerteknologier, der har højere effektivitetsklassificeringer. Disse reducerer ikke blot energiforbruget, men minimerer samtidig miljøpåvirkningen fra datacenterets drift. Brug nødstrømsforsyninger (UPS) til nødstrøm og energieffektive strømfordelingsenheder (PDU’er) til at styre og fordele strøm effektivt i datacenteret.
Dell-teamet hjælper dig med at vurdere kølekravene, så du kan styre den varme, der genereres af kompakte AI-workloads. Efterhånden som AI-workloads intensiveres, er traditionel luftkøling muligvis ikke tilstrækkelig. Implementering af væskekølingsløsninger kan reducere det termiske fodaftryk betydeligt, hvilket muliggør en mere effektiv fjernelse af varme og giver mulighed for stabilitet og lang levetid med konfigurationer med højere densitet.
Totos sti: Kabelkompleksitet, layout og organisation
Vi må ikke glemme Toto! Ligesom Toto, der navigerer gennem kompleksiteten i Oz, omfatter vores AI-udrulningstilgang omhyggelige kabelstyringsløsninger, der understøtter kabelføring i lofter og termisk styring. Transportsystemer skal designes, så de adskiller strøm- og datakabler, hvilket minimerer interferens og forbedrer både sikkerhed og systempålidelighed.
Inde i racket er det vigtigt at reducere rodet for at forhindre luftblokering og gøre det nemt for teknikere at finde det rigtige kabel. Dårligt førte kabler kan forårsage ophobning af varme og problemer med at skifte infrastruktur.
Derudover betyder konfigurationen af en Gen AI “pod” ofte, at et netværksrack omfatter flere GPU-serverracks, hvilket resulterer i flere og længere kabler mellem racks. For systematisk at organisere denne større mængde kabler og forbindelser omfatter bedste praksis design og implementering af et struktureret kabel- og mærkningssystem.
For at imødekomme fremtidig vækst bør der udrulles justerbare kabelstyringssystemer som modulære tavler og justerbare racks. Dell AI-pakken af professionelle AI-services omfatter infrastrukturudrulningstjenester, der hjælper med kabellayout og -styring.
For yderligere at forenkle udrulningen på stedet kan Dell bygge, konfigurere, kabelføre og teste AI-infrastrukturen på fabrikken, hvilket reducerer mængden af arbejde, der skal udføres i dit datacenter, betydeligt.
Dorothys visdom: Overvejelser om bortskaffelse af emballage
Dell er bevidst om de miljømæssige og logistiske konsekvenser, der er forbundet med bortskaffelse af emballage. Vælg genanvendelige eller biologisk nedbrydelige materialer til kabelemballage, og implementer bortskaffelsesprotokoller, der prioriterer bæredygtighed, hjælper med at opfylde lovkrav og forbedrer datacenterets miljøprofil.
Virksomheder bør samtidig evaluere deres datacentre for at finde områder, der giver mulighed for at reducere strømforbruget (og efterfølgende kølebehov) i eksisterende infrastruktur. Dette kan hjælpe med at kompensere for nogle af behovene i AI-infrastruktur og reducere CO2-påvirkningen.
Dells løsninger har til formål at minimere spild og styre bortskaffelsesudgifterne effektivt, så udrulningen af AI-infrastrukturen bliver lige så miljøvenlig, som den er teknologisk avanceret.
Begiv dig ud på den gule murstensvej til et AI-forberedt datacenter
Ligesom hovedpersonerne i “Troldmanden fra Oz” overvandt deres udfordringer med lidt hjælp fra deres venner, kan Dell Technologies hjælpe din virksomhed med at drage ud på rejsen til et GenAI-forberedt datacenter med ekspertplanlægning og -support.
Hvis du vil vide mere om, hvordan du forbereder dit datacenter til den nye AI-verden, kan du se Dell Professional Services for GenAI eller kontakte din Dell-repræsentant.
Explore the full list of EMEA Dell Technologies Forums here.