
[31/05/2024] Arista Networks ha anunciado, en colaboración con NVIDIA, una demostración tecnológica de centros de datos de IA con el fin de alinear los dominios de computación y red como una única entidad de IA gestionada. Con el fin de crear redes de IA generativa óptimas con tiempos de finalización de trabajos más bajos, Arista señaló en el comunicado de prensa que, los clientes pueden configurar, administrar y monitorear clústeres de IA de manera uniforme en todos los bloques de construcción clave, incluidas redes, NIC y servidores, añadiendo que esto demuestra el primer paso para lograr un ecosistema interoperable de múltiples proveedores que permita el control y la coordinación entre las redes de IA y la infraestructura informática de IA.
"A medida que crece el tamaño de los clústeres de IA y los grandes modelos de lenguaje (LLM), la complejidad y el gran volumen de las partes dispares del rompecabezas crecen a un ritmo acelerado”, sostuvo John McCool, director de plataforma de Arista Networks. "Las GPU, las NIC, los switches, las ópticas y los cables deben trabajar juntos para formar una red holística. Los clientes necesitan controles uniformes entre sus servidores de IA que alojan NIC y GPU, y los switches de red de IA en diferentes niveles. Todos estos elementos dependen unos de otros para completar correctamente el trabajo de IA, pero funcionan de forma independiente. Esto podría provocar una configuración incorrecta o una desalineación entre aspectos del ecosistema general, como entre las NIC y la red del switch, lo que puede afectar drásticamente al tiempo de finalización del trabajo, ya que los problemas de red pueden ser muy difíciles de diagnosticar. Los grandes clústeres de IA también requieren una gestión coordinada de la congestión para evitar la caída de paquetes y la infrautilización de las GPU, así como una gestión y supervisión coordinadas para optimizar los recursos informáticos y de red en conjunto”.
Presentación del agente de IA de Arista
El ejecutivo anotó que, en el corazón de esta solución se encuentra un agente basado en Arista EOS que permite que la red y el host se comuniquen entre sí y coordinen configuraciones para optimizar los clústeres de IA. "Con un agente de IA remoto, EOS que se ejecuta en switches Arista se puede extender a NIC y servidores conectados directamente para permitir un único punto de control y visibilidad en un centro de datos de IA como una solución holística. Este agente de IA remoto, alojado directamente en una SuperNIC NVIDIA BlueField-3, o que se ejecuta en el servidor y recopila telemetría de la SuperNIC, permite a EOS, en el switch de red, configurar, supervisar y depurar problemas de red en el servidor, lo que garantiza la configuración de la red de extremo a extremo y la coherencia de la calidad de servicio. Los clústeres de IA ahora se pueden administrar y optimizar como una única solución homogénea”.
Comunicación y optimización de IA de extremo a extremo
McCool añadió que esta nueva demostración de tecnología destaca cómo un agente de IA remoto basado en Arista EOS permite que el clúster de IA combinado e interdependiente se gestione como una única solución. "EOS que se ejecuta en la red ahora se puede extender a servidores o SuperNIC a través de agentes de IA remotos para permitir el seguimiento instantáneo y la generación de informes de degradación del rendimiento o fallas entre hosts y redes, de modo que se puedan aislar rápidamente y minimizar el impacto. Dado que los switches de red basados en EOS son conscientes en todo momento de la topología de red precisa, la extensión de EOS a SuperNIC y servidores con el agente de IA remoto permite aún más la optimización coordinada de la QoS de extremo a extremo entre todos los elementos del centro de datos de IA para reducir el tiempo de finalización del trabajo”.
Franca Cavassa, CTOPerú