Adentrarse en el mundo de la IA generativa (GenAI) es como entrar en un nuevo reino, lleno de desafíos y oportunidades únicos. Al igual que Dorothy necesitaba ayuda para moverse por Oz, las organizaciones deben preparar sus centros de datos para gestionar las demandas de la infraestructura de IA.
Los requisitos informáticos de la Ciudad Esmeralda
La implementación de una infraestructura de IA presenta retos importantes, empezando por los requisitos informáticos, los más importantes de los cuales son los relacionados con el entrenamiento de modelos. Incluso si una organización no entrena modelos desde cero, los requisitos informáticos para la inferencia de grandes modelos de lenguaje (además de la incrustación de vectores para la generación aumentada por recuperación [RAG, por sus siglas en inglés]) y el ajuste preciso, superan con creces los utilizados para las aplicaciones actuales.
Para cumplir estos requisitos, las características de tamaño físico, peso, cableado, redes, alimentación y refrigeración de los servidores de IA generativa con tecnología de GPU son varias veces superiores a las especificaciones correspondientes de los servidores estándar. Se necesita una planificación cuidadosa para que las organizaciones puedan poner en marcha esta infraestructura de IA en sus centros de datos.
Por ejemplo, el servidor Dell PowerEdge XE9680, validado por Dell para casos de uso de inferencia, es un servidor 6U con 8 GPU NVIDIA H100. Debido a su construcción robusta y su capacidad de refrigeración, este servidor pesa más de 90 kg (200 libras). Un rack con 4 servidores XE9680 consume entre 20 y 40 kW de energía, contiene más de 100 cables y pesa más de 453 kg (1000 libras).
En función de sus necesidades y del alcance de la implementación de IA, puede optar por aplicar las recomendaciones descritas en este blog a su centro de datos en su conjunto o a una sección dedicada a la IA dentro del mismo.
El cerebro del Espantapájaros: capacidad del centro de datos
En la historia clásica, el Espantapájaros dice que necesita un cerebro y su plan es seguir a Dorothy para encontrar al Mago. En el mundo de la infraestructura de IA, es fundamental tener un plan sobre el tamaño del centro de datos y la asignación de espacio para la instalación de servidores y racks, la optimización del flujo de aire y el mantenimiento.
Los especialistas en implementaciones de Dell Services pueden trabajar con su equipo para diseñar el espacio que permita gestionar de manera eficiente un gran número de racks de infraestructura de IA y proporcionar capacidad adicional para futuras ampliaciones.
Organizar los racks de forma que permitan un mantenimiento sencillo y el acceso a los servidores y a la infraestructura es fundamental para un buen diseño del centro de datos y también se aplica a la infraestructura de IA. Los equipos deben establecer un programa de mantenimiento regular a seguir, que incluya revisiones periódicas y el reemplazo de filtros de aire, ventiladores y unidades de refrigeración según sea necesario.
La valentía del León: gestión eficaz del flujo de aire
El flujo de aire es fundamental para gestionar el calor que generan los servidores y los sistemas de infraestructura. La infraestructura de IA consume mucha más energía que los servidores tradicionales, lo que genera más calor y hace que el flujo de aire y la refrigeración sean aún más importantes.
Las organizaciones deben utilizar estrategias de gestión estructurada del flujo de aire, como la contención en pasillos fríos y calientes, y dirigir el aire frío directamente a las entradas de los servidores y el aire caliente de escape lejos del equipo. Esto aumentará la eficiencia de la refrigeración y reducirá los costes de energía.
El corazón del Hombre de hojalata: potencia y refrigeración avanzados
Para admitir servidores GPU de alta densidad, es fundamental evaluar las necesidades de alimentación y refrigeración. La planificación debe incluir evaluaciones de los requisitos totales de energía ahora y en el futuro, de manera que se garantice que haya suficientes recursos y sistemas de copia de seguridad para respaldar las operaciones sin interrupción. Es posible que los centros de datos que no se han diseñado para las mayores exigencias de la infraestructura de IA no estén equipados para gestionar servidores con una alta densidad de GPU.
Considere invertir en las últimas tecnologías de fuentes de alimentación y transformadores que ofrezcan índices de eficiencia más altos. Esto no solo reduce el consumo de energía, sino que también minimiza el impacto ambiental de las operaciones del centro de datos. Utilice sistemas de alimentación ininterrumpida (SAI) para la alimentación de emergencia y unidades de distribución de energía (PDU, por sus siglas en inglés) eficientes energéticamente para gestionar y distribuir la energía de forma eficaz dentro del centro de datos.
El equipo de Dell le ayudará a evaluar los requisitos de refrigeración para gestionar el calor generado por las cargas de trabajo de IA densas. A medida que las cargas de trabajo de IA se intensifican, la refrigeración con aire tradicional puede no ser suficiente. La implementación de soluciones de refrigeración líquida puede reducir considerablemente la huella térmica, lo que permite una eliminación de calor más eficiente, además de estabilidad y longevidad con configuraciones de mayor densidad.
El camino de Totó: complejidad, diseño y organización de los cables
¡No podíamos olvidarnos de Totó! Al igual que Totó se abre paso a través de las complejidades de Oz, nuestro enfoque de la implementación de IA incluye soluciones meticulosas de gestión de cables que admiten el enrutamiento aéreo y la gestión térmica. Los sistemas de transporte deben diseñarse para separar los cables de alimentación y datos, de manera que se minimicen las interferencias y se mejoren tanto la seguridad como la fiabilidad del sistema.
Dentro del rack, es importante reducir el desorden para evitar la obstrucción de aire y facilitar a los técnicos la localización del cable adecuado. Un tendido incorrecto de los cables puede provocar la acumulación de calor y problemas con la infraestructura de conmutación.
Además, la configuración de un «pod» de IA generativa a menudo significa que un rack de red sirve a varios racks de servidor GPU, lo que se traduce en cables entre racks más numerosos y largos. Para organizar sistemáticamente este mayor volumen de cables y conexiones, entre los procedimientos recomendados se incluyen el diseño y la implementación de un sistema estructurado de cableado y etiquetado.
Para adaptarse al crecimiento futuro, implemente sistemas de gestión de cables ajustables, como paneles modulares y racks ajustables. La suite de servicios profesionales de IA de Dell incluye servicios de implementación de infraestructura para ayudar con el diseño y la gestión de cables.
Para simplificar aún más la implementación in situ, Dell puede construir, configurar, cablear y probar la infraestructura de IA en la fábrica, lo que reduce considerablemente la cantidad de trabajo que debe realizarse en el centro de datos.
La sabiduría de Dorothy: consideraciones para la eliminación de embalajes
Dell es consciente de las implicaciones medioambientales y logísticas asociadas a la eliminación de los embalajes. Elija materiales reciclables o biodegradables para el embalaje de cables e implemente protocolos de eliminación que prioricen la sostenibilidad, lo que ayuda a cumplir los requisitos normativos y mejora el perfil medioambiental del centro de datos.
Las organizaciones también deben evaluar sus centros de datos para encontrar áreas de oportunidad para reducir el consumo de energía (y los consiguientes requisitos de refrigeración) de la infraestructura existente. Esto puede ayudar a compensar algunas de las necesidades de la infraestructura de IA y reducir el impacto de la huella de carbono.
Las soluciones de Dell tienen como objetivo minimizar los residuos y gestionar los costes de eliminación de forma eficiente, de manera que se garantice que la implementación de la infraestructura de IA sea tan respetuosa con el medioambiente como tecnológicamente avanzada.
Siga el camino de las baldosas amarillas hacia un centro de datos preparado para la IA
Al igual que los personajes principales de «El mago de Oz» superaron sus retos con un poco de ayuda de sus amigos, Dell Technologies puede ayudar a su organización a recorrer con éxito el proceso hacia un centro de datos preparado para la IA generativa gracias a la planificación y la asistencia de expertos.
Para obtener más información sobre cómo preparar su centro de datos para el nuevo mundo de la IA, consulte Dell Professional Services para IA generativa o póngase en contacto con su representante de Dell.