
[13/03//2025] Arista Networks ha anunciado nuevas capacidades avanzadas para maximizar el rendimiento y la eficiencia de los clústeres de IA. Según lo señalado en el comunicado de prensa, la funcionalidad Cluster Load Balancing (CLB) en Arista EOS optimiza el rendimiento de las cargas de trabajo de IA con flujos de red consistentes y de baja latencia, mientras que Arista CloudVision Universal Network Observability (CV UNO) ahora ofrece observabilidad centrada en trabajos de IA para mejorar la solución de problemas y la detección rápida de incidencias, garantizando la fiabilidad en la ejecución de tareas a gran escala.
"La suite EOS Smart AI está diseñada para ofrecer una robustez y protección de nivel IA, permitiendo a los clústeres de IA aprovechar la innovación de Cluster Load Balancing (CLB). Se trata de una nueva solución de balanceo de carga basada en Ethernet y en pares de colas RDMA, que maximiza la utilización del ancho de banda entre los switches spine y leaf”, sostuvo Praful Bhaidasna, jefe de Productos (Observabilidad).
El ejecutivo anotó que los clústeres de IA suelen manejar pocos flujos de datos de gran ancho de banda. Los métodos básicos de balanceo de carga pueden ser ineficientes para estas cargas de trabajo, lo que provoca una distribución desigual del tráfico y una mayor latencia. "CLB resuelve este problema utilizando una colocación de flujos RDMA-aware, asegurando un rendimiento uniforme para todos los flujos mientras mantiene una latencia mínima. Este método adopta un enfoque global, optimizando el flujo de tráfico en ambas direcciones (leaf-to-spine y spine-to-leaf), asegurando un uso equilibrado y una latencia baja y constante”.
Observabilidad Holística de la IA
Bhaidasna sostuvo que CV UNO, la plataforma de observabilidad de red 360º impulsada por IA y por Arista AVA, proporciona visibilidad total de los trabajos de IA al unificar datos de red, sistemas y tareas de IA dentro del Arista Network Data Lake (NetDL).
"El EOS NetDL Streamer es un marco de telemetría en tiempo real que transmite de manera continua datos de red detallados desde los switches de Arista a NetDL. A diferencia del sondeo tradicional con SNMP, que se basa en consultas periódicas y puede omitir actualizaciones críticas, el EOS NetDL Streamer ofrece información en tiempo real con alta frecuencia y baja latencia sobre el rendimiento de la red. Esto es clave para potenciar infraestructuras de entrenamiento e inferencia de IA a gran escala”, explicó el ejecutivo.
Diseñada para clústeres de aceleradores de IA, Bhaidasna anotó que la solución permite realizar análisis de impacto más rápido, identificar problemas con precisión y acelerar la resolución de incidencias, minimizando los tiempos de ejecución de las tareas.
El ejecutivo señaló como beneficios clave los siguientes:
- Monitoreo de trabajos de IA: Ofrece una visión completa de la salud de los trabajos de IA, incluyendo tiempos de finalización, indicadores de congestión (paquetes marcados con ECN, tramas de pausa PFC, pérdidas de paquetes) y uso de buffers/enlaces en tiempo real.
- Análisis en profundidad: Proporciona información clave sobre el rendimiento de los dispositivos de red, tarjetas de interfaz de red (NIC) de los servidores (eventos de desincronización PFC, errores RDMA, errores fatales de PCIe) y flujos de datos asociados, permitiendo detectar cuellos de botella con precisión.
- Visualización de flujos: Aprovecha el mapeo topológico de CV para proporcionar visibilidad en tiempo real y con granularidad de microsegundos de los flujos de trabajo de IA, acelerando la identificación y resolución de problemas.
- Resolución proactiva: Detecta anomalías tempranas y correlaciona el rendimiento de la red y la computación dentro de NetDL, asegurando la ejecución eficiente e ininterrumpida de las cargas de trabajo de IA.
Centros de IA de Arista impulsados por AVA
Bhaidasna señaló que las plataformas Etherlink AI de Arista ofrecen sistemas Ethernet de alto rendimiento y estándares abiertos para redes de IA de próxima generación. "Con soporte para plataformas 800G/400G, fijas, modulares y distribuidas, Etherlink está diseñada para ser compatible con la Ultra Ethernet Consortium (UEC) y escalar desde pequeños clústeres de IA hasta implementaciones masivas con más de 100 mil aceleradores”.
Arista también presentó el AI Analyzer, impulsado por Arista AVA, que proporciona datos de tráfico de alta resolución en intervalos de 100 microsegundos, permitiendo una optimización precisa del rendimiento y una solución de problemas eficiente. Esto ayuda a los administradores de red a optimizar el rendimiento, diagnosticar problemas rápidamente y tomar decisiones informadas en redes impulsadas por IA.
"Además, Arista AVA potencia un agente remoto EOS AI, que transmite telemetría desde SuperNICs o servidores hacia NetDL, asegurando una supervisión continua de la red, depuración eficiente y coherencia en la calidad del servicio (QoS) en toda la infraestructura”, finalizó Bhaidasna.
Disponibilidad
- Cluster Load Balancing (CLB): Disponible en las plataformas 7260X3, 7280R3, 7500R3 y 7800R3; soporte para las plataformas 7060X6 y 7060X5 programado para el 2T 2025; soporte para 7800R4 previsto para la segunda mitad del 2025
- CV UNO: Disponible hoy. Las mejoras de observabilidad para IA están en pruebas con clientes y su disponibilidad general está programada para el 2T 2025.
Franca Cavassa, CTOPerú