Noticias

AWS introduce innovaciones en SageMaker

Y anuncia que las instancias de AWS Trainium2 ya están disponibles

[09/12/2024] Amazon Web Services (AWS) anunció cuatro nuevas innovaciones para Amazon SageMaker AI con el fin de ayudar a los clientes a comenzar más rápido con modelos populares disponibles públicamente, maximizar la eficiencia de la capacitación, reducir los costos y utilizar sus herramientas preferidas para acelerar el desarrollo de modelos de inteligencia artificial (IA) generativa.

"Los clientes de SageMaker ahora pueden descubrir, implementar y utilizar de manera fácil y segura aplicaciones de desarrollo de IA generativa y aprendizaje automático (ML) completamente administradas de socios de AWS, como Comet, Deepchecks, Fiddler AI y Lakera, directamente en SageMaker, lo que les brinda la flexibilidad de elegir las herramientas que mejor se adapten a sus necesidades, sostuvo el doctor Baskar Sridharan, vicepresidente de Servicios e Infraestructura de IA/ML de AWS.

Con la llegada de la IA generativa, el ejecutivo anotó que el proceso de creación, entrenamiento e implementación de modelos de ML se ha vuelto significativamente más difícil, lo que requiere una profunda experiencia en IA, acceso a cantidades masivas de datos y la creación y administración de grandes clústeres de cómputo. "Además, los clientes necesitan desarrollar código especializado para distribuir la capacitación a través de los clústeres, inspeccionar y optimizar continuamente su modelo y solucionar manualmente los problemas de hardware, todo mientras intentan administrar los plazos y los costos. Esta es la razón por la que AWS creó SageMaker HyperPod, que ayuda a los clientes a escalar de manera eficiente el desarrollo de modelos de IA generativa en miles de aceleradores de IA, lo que reduce el tiempo de entrenamiento de los modelos básicos hasta en un 40%.


Sridharan indicó que, ahora, incluso más organizaciones quieren ajustar modelos populares disponibles públicamente o entrenar sus propios modelos especializados para transformar sus negocios y aplicaciones con IA generativa, y agregó que es por eso que SageMaker HyperPod continúa innovando para que sea más fácil, rápido y rentable para los clientes crear, entrenar e implementar estos modelos a escala con nuevas innovaciones, que incluyen:

Las nuevas recetas ayudan a los clientes a comenzar más rápido: El ejecutivo anotó que muchos clientes quieren aprovechar los modelos populares disponibles públicamente, como Llama y Mistral, que se pueden personalizar para un caso de uso específico utilizando los datos de su organización. "Sin embargo, pueden llevar semanas de pruebas iterativas optimizar el rendimiento del entrenamiento, incluida la experimentación con diferentes algoritmos, el refinamiento cuidadoso de los parámetros, la observación del impacto en el entrenamiento, la depuración de problemas y la evaluación comparativa del rendimiento. Para ayudar a los clientes a comenzar en minutos, SageMaker HyperPod ahora brinda acceso a más de 30 recetas de capacitación de modelos seleccionadas para algunos de los modelos disponibles públicamente más populares de la actualidad, incluidos Llama 3.2 90B, Llama 3.1 405B y Mistral 8x22B.

Los clientes pueden examinar las recetas de capacitación disponibles a través del repositorio de GitHub de SageMaker, ajustar los parámetros para que se adapten a sus necesidades de personalización e implementarlas en cuestión de minutos. "Además, con una simple edición de una línea, los clientes pueden cambiar sin problemas entre instancias basadas en GPU o Trainium para optimizar aún más el rendimiento de los precios, sostuvo Sridharan.

Los planes de formación flexibles facilitan el cumplimiento de los plazos y presupuestos de formación: El ejecutivo explicó que, si bien las innovaciones en infraestructura ayudan a reducir los costos y permiten a los clientes entrenar modelos de manera más eficiente, los clientes aún deben planificar y administrar la capacidad de cómputo necesaria para completar sus tareas de capacitación a tiempo y dentro del presupuesto. "Es por eso que AWS está lanzando planes de capacitación flexibles para SageMaker HyperPod. Con unos pocos clics, los clientes pueden especificar la fecha de finalización deseada y la cantidad máxima de recursos informáticos que necesitan. A continuación, SageMaker HyperPod reserva automáticamente la capacidad, configura clústeres y crea trabajos de entrenamiento de modelos, lo que ahorra a los equipos semanas de tiempo de entrenamiento de modelos.

Sridharan agregó que esto reduce la incertidumbre a la que se enfrentan los clientes al intentar adquirir grandes clústeres de proceso para completar las tareas de desarrollo de modelos. "En los casos en los que el plan de capacitación propuesto no cumpla con los requisitos de tiempo, presupuesto o computación especificados, SageMaker HyperPod sugiere planes alternativos, como ampliar el intervalo de fechas, agregar más computación o realizar la capacitación en una región de AWS diferente, como la siguiente mejor opción. Una vez que se aprueba el plan, SageMaker aprovisiona automáticamente la infraestructura y ejecuta los trabajos de capacitación. SageMaker utiliza bloques de capacidad de Amazon Elastic Compute Cloud (EC2) para reservar la cantidad correcta de instancias de computación acelerada necesarias para completar el trabajo de entrenamiento a tiempo. Al pausar y reanudar de manera eficiente los trabajos de entrenamiento en función de cuándo están disponibles esos bloques de capacidad, SageMaker HyperPod ayuda a garantizar que los clientes tengan acceso a los recursos informáticos que necesitan para completar el trabajo a tiempo, todo sin intervención manual.

La gobernanza de tareas maximiza la utilización del acelerador: Cada vez más, las organizaciones están aprovisionando grandes cantidades de capacidad de proceso acelerado para el entrenamiento de modelos, indicó el ejecutivo, añadiendo que estos recursos informáticos implicados son costosos y limitados, por lo que los clientes necesitan una forma de controlar el uso para garantizar que sus recursos informáticos tengan prioridad para las tareas de desarrollo de modelos más críticas, lo que incluye evitar cualquier desperdicio o infrautilización.

"Sin controles adecuados sobre la priorización de tareas y la asignación de recursos, algunos proyectos terminan estancados debido a la falta de recursos, mientras que otros dejan los recursos infrautilizados. Esto crea una carga significativa para los administradores, que deben replanificar constantemente la asignación de recursos, mientras que los científicos de datos luchan por avanzar. Esto impide que las organizaciones lleven las innovaciones de IA al mercado rápidamente y conduce a sobrecostos. Con la gobernanza de tareas de SageMaker HyperPod, los clientes pueden maximizar la utilización del acelerador para el entrenamiento, el ajuste y la inferencia de modelos, lo que reduce los costos de desarrollo de modelos hasta en un 40%. Con unos pocos clics, los clientes pueden definir fácilmente las prioridades para diferentes tareas y establecer límites para la cantidad de recursos informáticos que puede usar cada equipo o proyecto. Una vez que los clientes establezcan límites en diferentes equipos y proyectos, SageMaker HyperPod asignará los recursos relevantes, administrando automáticamente la cola de tareas para garantizar que se priorice el trabajo más crítico, explicó Sridharan.

Todas las nuevas innovaciones de SageMaker ya están disponibles para los clientes.

AWS SageMaker HyperPod, AWS Trainium2, Amazon EC2 Trn2, cloud, GenIA
Las instancias de AWS Trainium2 ya disponibles

AWS también anunció la disponibilidad general de las instancias de Amazon Elastic Compute Cloud (Amazon EC2) impulsadas por AWS Trainium2. Además, presentó los nuevos Trn2 UltraServers, que permiten a los clientes entrenar e implementar los últimos modelos de IA actuales, así como los futuros modelos de lenguaje de gran tamaño (LLM, su sigla en inglés) y modelos fundacionales (FM, su sigla en inglés) con niveles excepcionales de rendimiento y rentabilidad. Finalmente, reveló los chips Trainium3 de próxima generación.

"Trainium2 está diseñado específicamente para admitir las cargas de trabajo de IA generativa más grandes y avanzadas, tanto para entrenamiento como para inferencia, y ofrecer el mejor rendimiento de precio en AWS, sostuvo David Brown, vicepresidente de Cómputo y Redes en AWS. "Con modelos que se acercan a los billones de parámetros, entendemos que los clientes también necesitan un enfoque innovador para entrenar y ejecutar estas enormes cargas de trabajo. Los nuevos Trn2 UltraServers ofrecen el rendimiento más rápido de entrenamiento e inferencia en AWS y ayudan a organizaciones de todos los tamaños a entrenar y desplegar los modelos más grandes del mundo más rápidamente y a un costo menor. El ejecutivo señaló que:

  • Las instancias Trn2 ofrecen un rendimiento de precio entre un 30% y un 40% superior en comparación con la generación actual de instancias EC2 P5e y P5en basadas en GPU, y cuentan con 16 chips Trainium2 para proporcionar 20,8 petaflops picos de cómputo, lo que las hace ideales para entrenar y desplegar LLM con miles de millones de parámetros.
  • Los Amazon EC2 Trn2 UltraServers son una oferta completamente nueva de EC2 que presenta 64 chips Trainium2 interconectados, utilizando la interconexión ultra rápida NeuronLink, para escalar hasta 83,2 petaflops picos de cómputo, cuatriplicando el cómputo, la memoria y la conectividad de una sola instancia. Esto hace posible entrenar y desplegar los modelos más grandes del mundo.
  • Junto con Anthropic, AWS está construyendo un EC2 UltraCluster de Trn2 UltraServers, denominado Proyecto Rainier, que contiene cientos de miles de chips Trainium2 y más de cinco veces la cantidad de exaflops utilizados para entrenar su generación actual de modelos de IA líderes.
  • AWS presentó el Trainium3, su chip de IA de próxima generación, que permitirá a los clientes construir modelos más grandes de manera más rápida y ofrecer un rendimiento superior en tiempo real al desplegarlos.

"A medida que los modelos crecen en tamaño, están llevando al límite la infraestructura de cómputo y redes, ya que los clientes buscan reducir los tiempos de entrenamiento y la latencia de inferencia -el tiempo entre cuando un sistema de IA recibe una entrada y genera la salida correspondiente. AWS ya ofrece la selección más amplia y profunda de instancias EC2 aceleradas para IA y ML, incluidas aquellas impulsadas por GPU y chips de ML. Sin embargo, incluso con las instancias aceleradas más rápidas disponibles hoy, los clientes desean más rendimiento y escalabilidad para entrenar estos modelos cada vez más sofisticados más rápidamente y a un costo más bajo. A medida que la complejidad de los modelos y el volumen de datos crecen, simplemente aumentar el tamaño del clúster no mejora los tiempos de entrenamiento debido a las limitaciones de paralelización. Al mismo tiempo, las demandas de la inferencia en tiempo real superan las capacidades de las arquitecturas de instancia única, explicó Brown.

Añadió que Trn2 ofrece un rendimiento de precio entre un 30% y un 40% superior en comparación con la generación actual de instancias EC2 basadas en GPU. "Una sola instancia de Trn2 combina 16 chips Trainium2 interconectados con una interconexión de chip a chip de baja latencia y alto ancho de banda NeuronLink ultrarrápida para proporcionar 20,8 petaflops picos de cómputo, ideal para entrenar e implementar modelos que tienen miles de millones de parámetros.

Brown sostuvo que, para los modelos más grandes que requieren aún más cómputo, los Trn2 UltraServers permiten a los clientes escalar el entrenamiento más allá de los límites de una sola instancia de Trn2, reduciendo el tiempo de entrenamiento, acelerando el tiempo de lanzamiento al mercado y habilitando iteraciones rápidas para mejorar la precisión del modelo. "Los Trn2 UltraServers son una oferta EC2 completamente nueva que utiliza interconexión NeuronLink ultrarrápida para conectar cuatro servidores Trn2 en un servidor gigante. Con los nuevos Trn2 UltraServers, los clientes pueden escalar sus cargas de trabajo de IA generativa a través de 64 chips Trainium2. Para las cargas de trabajo de inferencia, los clientes pueden usar los Trn2 UltraServers para mejorar el rendimiento de inferencia en tiempo real de modelos de billones de parámetros en producción. Junto con Anthropic, AWS está construyendo un EC2 UltraCluster de Trn2 UltraServers, llamado Proyecto Rainier, que escalará el entrenamiento distribuido de modelos a través de cientos de miles de chips Trainium2 interconectados con una red Elastic Fabric Adapter (EFA) de tercera generación, de baja latencia y escala petabit. Esto será más de cinco veces la cantidad de exaflops que Anthropic utilizó para entrenar su generación actual de modelos de IA líderes. Cuando se complete, se espera que sea el clúster de cómputo de IA más grande del mundo disponible hasta la fecha para que Anthropic construya y despliegue sus futuros modelos.

Chips Trainium3: Diseñados para satisfacer las necesidades de alto rendimiento

AWS presentó Trainium3, su chip de entrenamiento de IA de próxima generación. "Trainium3 será el primer chip de AWS fabricado con un nodo de proceso de 3 nanómetros, estableciendo un nuevo estándar en rendimiento, eficiencia energética y densidad. Se espera que los UltraServers impulsados por Trainium3 ofrezcan un rendimiento cuatro veces mayor que los UltraServers Trn2, permitiendo a los clientes iterar más rápidamente al desarrollar modelos y ofrecer un rendimiento superior en tiempo real durante su implementación. Las primeras instancias basadas en Trainium3 estarán disponibles a finales del 2025, anotó el ejecutivo.

Aprovechar el rendimiento de Trainium2 con el software AWS Neuron

Brown sostuvo que el SDK de Neuron incluye un compilador, bibliotecas de ejecución y herramientas para ayudar a los desarrolladores a optimizar sus modelos para ejecutarse en Trainium. Proporciona a los desarrolladores la capacidad de ajustar modelos para obtener el máximo rendimiento en chips Trainium. "Neuron está integrado de forma nativa con marcos populares como JAX y PyTorch, permitiendo a los clientes continuar utilizando su código y flujos de trabajo existentes en Trainium con menos cambios. Además, Neuron es compatible con más de 100 mil modelos del hub de modelos de Hugging Face. Con la Interfaz de Kernel de Neuron (NKI, su sigla en inglés), los desarrolladores obtienen acceso directo a los chips Trainium, lo que les permite escribir núcleos de cómputo (kernel) que maximizan el rendimiento para cargas de trabajo exigentes.

Agregó que el software Neuron está diseñado para facilitar el uso de marcos populares como JAX para entrenar y desplegar modelos en Trainium2, minimizando los cambios en el código y la dependencia de soluciones específicas de proveedores. "Google respalda los esfuerzos de AWS para permitir que los clientes usen JAX en el entrenamiento e inferencia a gran escala a través de su integración nativa con OpenXLA, proporcionando a los usuarios una vía de codificación fácil y portátil para comenzar rápidamente con las instancias Trn2. Gracias a la colaboración de código abierto en toda la industria y la disponibilidad de Trainium2, Google espera una mayor adopción de JAX dentro de la comunidad de ML, lo que representa un hito significativo para todo ese ecosistema, anotó Brown.

Las instancias Trn2 están disponibles hoy en día en la región de AWS del este de EE. UU. (Ohio) y pronto estarán disponibles en otras regiones. Los UltraServers Trn2 están disponibles en versión preliminar.

Llegamos a ustedes gracias a:


BrandPosts Qué es BrandPost

Más »
×
Los artículos publicados en esta sección -BrandPosts- son escritos y editados por los proveedores o miembros de la comunidad TI. BrandPosts crea una oportunidad para que un patrocinador proporcione información y comentarios desde su punto de vista, directamente a la audiencia de CTOPerú. El equipo editorial de CTOPerú no participa en la redacción o edición de estos BrandPosts.

Primer contacto

Más »

Recursos

Más »