[07/04/2025] MLCommons ha anunciado los nuevos resultados de su conjunto de pruebas MLPerf Inference v5.0, estándar del sector, que ofrece pruebas de rendimiento de sistemas de aprendizaje automático (ML) de forma neutral en cuanto a arquitectura, representativa y reproducible. Según lo señalado en el comunicado de prensa, los resultados ponen de manifiesto que la comunidad de IA está centrando gran parte de su atención y sus esfuerzos en escenarios de IA generativa, y que la combinación de los recientes avances en hardware y software optimizados para la IA generativa ha dado lugar a espectaculares mejoras de rendimiento en el último año.
"El conjunto de pruebas de referencia MLPerf Inference, que abarca tanto sistemas de centros de datos como sistemas periféricos, está diseñado para medir la rapidez con la que los sistemas pueden ejecutar modelos de IA y ML en una variedad de cargas de trabajo. El conjunto de puntos de referencia de código abierto, y revisado por pares, crea un campo de juego nivelado para la competencia que impulsa la innovación, el rendimiento y la eficiencia energética para toda la industria. También proporciona información técnica esencial para los clientes que adquieren y ajustan sistemas de IA. Esta ronda de resultados de MLPerf Inference también incluye pruebas para cuatro nuevos puntos de referencia: Llama 3.1 405B, Llama 2 70B interactiva para aplicaciones de baja latencia, RGAT y Automotive PointPainting para la detección de objetos en 3D”, sostuvo David Kanter, responsable de MLPerf en MLCommons.
La prueba de IA generativa Llama 2 70B ocupa un lugar central
El ejecutivo anotó que los resultados de Inference v5.0 muestran que los escenarios de IA generativa han cobrado impulso. "En el último año, el número de propuestas se ha multiplicado por 2,5 en la prueba de referencia Llama 2 70B, que implementa una gran carga de trabajo de inferencia de IA generativa basada en un modelo de código abierto ampliamente referenciado. Con el lanzamiento de la versión 5.0, Llama 2 70B ha desbancado a Resnet50 como la prueba con mayor índice de envíos”.
Agregó que los resultados de rendimiento de Llama 2 70B también se han disparado desde hace un año: la puntuación media enviada se ha duplicado, y la mejor puntuación es 3,3 veces más rápida en comparación con Inference v4.0.
"Ahora está claro que gran parte del ecosistema se centra directamente en el despliegue de la IA generativa, y que el circuito de retroalimentación de la evaluación comparativa del rendimiento está funcionando. Estamos asistiendo a una avalancha sin precedentes de nuevas generaciones de aceleradores. El hardware se combina con nuevas técnicas de software, como la compatibilidad alineada de hardware y software con el formato de datos FP4. Con estos avances, la comunidad está estableciendo nuevos récords de rendimiento en la inferencia generativa de IA”, indicó Kanter.
Los resultados del benchmark de esta ronda incluyen resultados para seis procesadores recientemente disponibles o que se comercializarán en breve:
- AMD Instinct MI325X
- Intel Xeon 6980P Granite Rapids
- Google TPU Trillium (TPU v6e)
- NVIDIA B200
- NVIDIA Jetson AGX Thor 128
- NVIDIA GB200
Benchmarking del estado del arte en IA generativa: Se introducen dos nuevas pruebas
El ejecutivo explicó que, en consonancia con los avances de la comunidad de IA, MLPerf Inference v5.0 introduce una nueva prueba comparativa que utiliza el modelo Llama 3.1 405B, marcando un nuevo listón para la escala de un modelo de inferencia de IA generativa en una prueba comparativa de rendimiento. Llama 3.1 405B incorpora 405 mil millones de parámetros en su modelo y admite longitudes de entrada y salida de hasta 128 mil tokens (frente a los 4.096 tokens de Llama 2 70B). La prueba evalúa tres tareas distintas: respuesta a preguntas generales, matemáticas y generación de código.
Según Miro Hodak, copresidente del grupo de trabajo MLPerf Inference, se trata de una prueba de inferencia más ambiciosa hasta la fecha. "Refleja la tendencia del sector hacia modelos más grandes, que pueden aumentar la precisión y admitir un conjunto más amplio de tareas. Se trata de una prueba más difícil y que requiere más tiempo, pero las organizaciones están intentando implantar en el mundo real modelos de este orden de magnitud. Unos resultados de referencia fiables y relevantes son fundamentales para ayudarles a tomar mejores decisiones sobre la mejor forma de aprovisionarlos”.
El ejecutivo indicó que la suite Inference v5.0 también añade un nuevo giro a su benchmark existente para Llama 2 70B con una prueba adicional que añade requisitos de baja latencia: Llama 2 70B Interactiva. "Como reflejo de las tendencias del sector hacia los chatbots interactivos, así como hacia los sistemas de razonamiento y agénticos de próxima generación, la prueba requiere que los sistemas bajo prueba (SUT, por sus siglas en inglés) cumplan unas métricas de respuesta del sistema más exigentes para el tiempo hasta el primer token (TTFT, por sus siglas en inglés) y el tiempo por token de salida (TPOT, por sus siglas en inglés)”, explicó.
"Una medida fundamental del rendimiento de un sistema de consulta o un chatbot es si responde a la persona que interactúa con él. ¿Con qué rapidez empieza a responder a una solicitud y a qué ritmo entrega su respuesta completa?”, afirmó, por su parte, Mitchelle Rasquinha, copresidenta del grupo de trabajo MLPerf Inference. "Al imponer requisitos más estrictos para la capacidad de respuesta, esta versión interactiva de la prueba Llama 2 70B ofrece nuevas perspectivas sobre el rendimiento de los LLM en escenarios reales”.
Nuevo benchmark de centro de datos Graph Neural Network para modelar grafos de relaciones
Otra novedad de Inference v5.0 es un benchmark de centro de datos que implementa un modelo de red neuronal de grafos (GNN). Las GNN son útiles para modelar enlaces y relaciones entre nodos de una red y se utilizan habitualmente en sistemas de recomendación, respuestas a grafos de conocimiento, sistemas de detección de fraudes y otros tipos de aplicaciones basadas en grafos.
El centro de datos de referencia GNN implementa el modelo RGAT, basado en el conjunto de datos Illinois Graph Benchmark Heterogeneous (IGBH) que contiene 547.306.935 nodos y 5.812.005.639 aristas.
Nueva prueba de referencia de aristas: Prueba PointPainting de automoción para la detección de objetos 3D
El benchmark Inference v5.0 introduce un nuevo benchmark Automotive PointPainting para dispositivos edge computing, concretamente automóviles. Hodak anotó que, mientras el grupo de trabajo MLPerf Automotive sigue desarrollando el producto mínimo viable anunciado por primera vez el invierno pasado, esta prueba ofrece una aproximación a un importante escenario de edge computing: la detección de objetos en 3D en imágenes de cámara para aplicaciones como los coches autoconducidos.
A medida que la industria sube el listón de los sistemas de IA, la prueba de referencia MLPerf Inference hace lo propio
"Rara vez introducimos cuatro pruebas nuevas en una sola actualización del conjunto de pruebas de referencia”, anotó el ejecutivo. "Pero pensamos que era necesario para servir mejor a la comunidad. Tanto el rápido ritmo de avance del aprendizaje automático como la amplitud de las nuevas aplicaciones son asombrosos, y las partes interesadas necesitan datos relevantes y actualizados para fundamentar su toma de decisiones”.
MLPerf Inference v5.0 incluye 17.457 resultados de rendimiento de 23 organizaciones: AMD, ASUSTeK, Broadcom, Cisco, CoreWeave, CTuning, Dell, FlexAI, Fujitsu, GATEOverflow, Giga Computing, Google, HPE, Intel, Krai, Lambda, Lenovo, MangoBoost, NVIDIA, Oracle, Quanta Cloud Technology, Supermicro y Sustainable Metal Cloud.
Para ver los resultados de MLPerf Inference v5.0, puede visitar las páginas de resultados de referencia de Datacenter y Edge.
Franca Cavassa, CTOPerú