Entrar no mundo da IA Generativa (GenAI) é como entrar em um novo reino, repleto de desafios e oportunidades únicas. Assim como Dorothy precisava de orientação para navegar por Oz, as organizações devem preparar seus data centers para lidar com as demandas da infraestrutura de IA.
Requisitos de computação da Cidade das Esmeraldas
A implementação da infraestrutura de IA apresenta desafios significativos, começando pelos requisitos de computação que, quando relacionados à computação voltada para o treinamento de modelos, são ainda mais complexos. Mesmo que uma organização não esteja treinando modelos do zero, os requisitos de computação para a inferência de grandes modelos de linguagem, incluindo a incorporação de vetores para Geração Aumentada de Recuperação (RAG) e ajuste fino, vão muito além daqueles usados para os aplicativos atuais.
Para atender a esses requisitos, as especificações de tamanho físico, peso, cabeamento, sistema de rede, energia e refrigeração dos servidores de IA generativa alimentados por GPU são muito maiores do que as dos servidores padrão. É necessário um planejamento cuidadoso para que as organizações coloquem essa infraestrutura de IA em funcionamento nos data centers.
Por exemplo, o servidor Dell PowerEdge XE9680, validado pela Dell para casos de uso de inferência, é um servidor 6U com 8 GPUs NVIDIA H100. Devido à sua estrutura resistente e grande capacidade de refrigeração, esse servidor pesa mais de 200 libras. Um rack com 4 servidores XE9680 consome de 20 a 40 kW de energia, contém mais de 100 cabos e pesa mais
de 1000 libras.
Dependendo de suas necessidades e da escala de sua implementação de IA, você pode optar por aplicar as recomendações descritas nesta publicação ao seu data center como um todo ou a uma seção dedicada de IA do data center.
O cérebro do Espantalho: a capacidade do data center
Na história clássica, o Espantalho diz que precisa de um cérebro e seu plano é seguir Dorothy para encontrar o Mágico. No mundo da infraestrutura de IA, é essencial ter um planejamento de alocação de espaço e tamanho do data center para a instalação, a otimização do fluxo de ar e a manutenção do servidor e do rack.
Os especialistas em implementação da Dell Services podem trabalhar com a sua equipe para projetar o espaço para acomodar um grande número de racks de infraestrutura de IA com eficiência e fornecer capacidade adicional para expansão futura.
A organização dos racks para facilitar o acesso aos servidores e à infraestrutura para fazer manutenções é fundamental em um bom design de data center e também se aplica à infraestrutura de IA. As equipes devem estabelecer um cronograma de manutenção regular, incluindo verificações periódicas e substituições dos filtros de ar, ventiladores e unidades de refrigeração, conforme necessário.
A coragem do Leão: o gerenciamento eficaz do fluxo de ar
O fluxo de ar é essencial para gerenciar o calor produzido por servidores e sistemas de infraestrutura. A infraestrutura de IA consome muito mais energia do que os servidores tradicionais, gerando mais calor e tornando o fluxo de ar e a refrigeração ainda mais importantes.
As organizações devem utilizar estratégias estruturadas de gerenciamento do fluxo de ar, tais como contenção de corredores quentes e frios e direcionamento de ar frio para as entradas do servidor e ar quente de exaustão para longe do equipamento. Isso aumentará a eficiência da refrigeração e reduzirá os custos de energia.
O coração do Homem de Lata: a alimentação e a refrigeração avançadas
Para dar suporte a servidores de GPU de alta densidade, é fundamental avaliar as necessidades de alimentação e refrigeração. O planejamento deve incluir avaliações dos requisitos totais de energia, atuais e futuros, garantindo que haja recursos e sistemas de backup suficientes para dar suporte às operações, sem interrupções. Os data centers que não foram projetados para atender às demandas maiores da infraestrutura de IA podem não estar preparados para lidar com servidores densos de GPU.
Considere investir nas mais recentes tecnologias de fonte de alimentação e transformador, que oferecem classificações de eficiência mais altas. Elas não só reduzem o consumo de energia, mas também minimizam o impacto ambiental das operações do data center. Utilize no-breaks (UPSs) para alimentação de emergência e unidades de distribuição de energia (PDUs) com eficiência energética para gerenciar e distribuir a alimentação no data center de forma eficaz.
A equipe da Dell ajudará você a avaliar os requisitos de refrigeração para gerenciar o calor produzido por cargas de trabalho densas de IA. Conforme as cargas de trabalho de IA se intensificarem, a refrigeração de ar tradicional poderá não ser suficiente. A implementação de soluções de refrigeração por líquido pode reduzir significativamente o espaço ocupado pelo sistema térmico, possibilitando uma remoção de calor mais eficiente e permitindo estabilidade e longevidade com configurações de maior densidade.
O caminho de Totó: a complexidade, o layout e a organização dos cabos
Não poderíamos nos esquecer de Totó! Assim como Totó navegando pelas complexidades de Oz, a nossa abordagem de implementação de IA inclui soluções meticulosas de gerenciamento de cabos que dão suporte à sobrecarga de roteamento e ao gerenciamento térmico. Os sistemas de transmissão devem ser desenvolvidos para separar os cabos de alimentação dos cabos de dados, reduzindo a interferência e aumentando a segurança
e a confiabilidade do sistema.
É importante reduzir a desordem dentro do rack para impedir o bloqueio de ar e ajudar os técnicos a localizarem com mais facilidade os cabos adequados. Cabos mal roteados podem provocar acúmulo de calor e causar problemas na infraestrutura de switches.
Além disso, a configuração de um “pod” de GenAI geralmente indica que um rack de rede atende a vários racks de servidor de GPU, resultando em inúmeros cabos mais longos entre racks. Para organizar sistematicamente esse volume maior de cabos e conexões, as práticas recomendadas incluem projetar e implementar um sistema estruturado de cabeamento e rotulagem.
Para acomodar a expansão futura, implemente sistemas de gerenciamento de cabos ajustáveis, como painéis modulares e racks reguláveis. A suíte de serviços profissionais de IA Dell inclui serviços de implementação de infraestrutura que auxiliam no gerenciamento e no layout de cabos.
Para simplificar ainda mais a implementação no local, a Dell pode criar, configurar, cabear e testar a infraestrutura de IA na fábrica, reduzindo significativamente o volume de trabalho que precisa ser feito em seu data center.
A sabedoria de Dorothy: as considerações para o descarte de embalagens
A Dell está ciente das implicações ambientais e logísticas associadas ao descarte de embalagens. Escolha materiais recicláveis ou biodegradáveis para a embalagem de cabos e implemente protocolos de descarte que priorizem a sustentabilidade, a fim de cumprir os requisitos regulamentares e melhorar o perfil ambiental do data center.
As organizações também devem avaliar os data centers, buscando áreas onde haja a oportunidade de reduzir o consumo de energia (e os requisitos subsequentes de refrigeração) da infraestrutura existente. Isso pode ajudar a compensar algumas das necessidades da infraestrutura de IA e diminuir o impacto da pegada de carbono.
As soluções da Dell visam minimizar o desperdício e gerenciar os custos de descarte com eficiência, garantindo que a implementação da infraestrutura de IA seja tão ecologicamente correta quanto tecnologicamente avançada.
Siga a Estrada dos tijolos amarelos para um data center pronto para a IA
Assim como os personagens principais de “O Maravilhoso Mágico de Oz” superam os desafios com a ajuda de amigos, a Dell Technologies pode ajudar, com planejamento e suporte especializados, a sua organização a percorrer com sucesso a jornada rumo a um data center pronto para a IA generativa.
Para saber mais sobre como preparar seu data center para o novo mundo da IA, consulte Dell Professional Services para IA generativa ou entre em contato com seu representante Dell.