Noticias

Snowflake aloja la colección Llama 3.1

En Snowflake Cortex AI

[26/07/2024] Snowflake ha anunciado que alojará la colección Llama 3.1 de modelos de grandes lenguajes (LLM) multilingües de código abierto en Snowflake Cortex AI para que las empresas puedan aprovechar y crear aplicaciones de IA a escala. Según lo señalado en el comunicado de prensa, esta oferta incluye el LLM de código abierto más grande y potente de Meta, Llama 3.1 405B, con Snowflake desarrollando y abriendo la pila del sistema de inferencia para permitir la inferencia de alto rendimiento en tiempo real y democratizar aún más las potentes aplicaciones de procesamiento y generación de lenguaje natural.

"El equipo de investigación en IA de Snowflake ha optimizado Llama 3.1 405B tanto para la inferencia como para el ajuste fino, soportando una ventana de contexto masiva de 128K desde el primer día, a la vez que permite la inferencia en tiempo real con una latencia de extremo a extremo hasta tres veces menor y un rendimiento 1,4 veces mayor que las soluciones de código abierto existentes. Además, permite afinar el modelo masivo utilizando un único nodo de GPU, lo que elimina costes y complejidad para desarrolladores y usuarios, todo ello dentro de Cortex AI, sostuvo Vivek Raghunathan, vicepresidente de ingeniería de IA de Snowflake.

Al asociarse con Meta, el ejecutivo indicó que Snowflake está proporcionando a los clientes formas fáciles, eficientes y confiables de acceder, afinar y desplegar sin problemas los modelos más nuevos de Meta en AI Data Cloud, con un enfoque integral de confianza y seguridad incorporado a nivel fundacional.

Raghunathan indicó que, junto con el lanzamiento de Llama 3.1 405B, el equipo de investigación de IA de Snowflake está abriendo su pila de inferencia LLM masiva y optimización del sistema de ajuste fino en colaboración con DeepSpeed, Hugging Face, vLLM y la comunidad de IA en general. "Este avance establece un nuevo estado de la técnica para los sistemas de inferencia y ajuste de código abierto para modelos con cientos de miles de millones de parámetros.

El ejecutivo comentó que la escala masiva de los modelos y los requisitos de memoria plantean importantes retos a los usuarios que pretenden lograr una inferencia de baja latencia para casos de uso en tiempo real, un alto rendimiento para la rentabilidad y un soporte de contexto prolongado para diversos casos de uso de IA generativa de nivel empresarial. "Los requisitos de memoria para almacenar los estados del modelo y la activación también dificultan enormemente el ajuste fino, y los grandes clústeres de GPU necesarios para ajustar los estados del modelo para el entrenamiento suelen ser inaccesibles para los científicos de datos.

De acuerdo a Raghunathan, la pila de optimización del sistema de inferencia LLM masiva y ajuste fino de Snowflake aborda estos retos. "Mediante el uso de técnicas avanzadas de paralelismo y optimizaciones de memoria, Snowflake permite un procesamiento de IA rápido y eficiente, sin necesidad de una infraestructura compleja y costosa. En el caso de Llama 3.1 405B, la pila del sistema Snowflake proporciona un alto rendimiento en tiempo real en un solo nodo de la GPU y admite una enorme ventana de contexto de 128.000 en configuraciones multinodo. Esta flexibilidad se extiende tanto al hardware de última generación como al heredado, lo que lo hace accesible a una gama más amplia de empresas. Además, los científicos de datos pueden ajustar Llama 3.1 405B utilizando técnicas de precisión mixta en menos GPU, lo que elimina la necesidad de grandes clústeres de GPU. Como resultado, las organizaciones pueden adaptar e implantar potentes aplicaciones de IA generativa de nivel empresarial de forma fácil, eficiente y segura.

El ejecutivo agregó que el equipo de investigación de IA de Snowflake también ha desarrollado una infraestructura optimizada para el ajuste fino que incluye la destilación de modelos, las barreras de seguridad, la generación aumentada por recuperación (RAG) y la generación de datos sintéticos, de forma que las empresas puedan empezar fácilmente con estos casos de uso dentro de Cortex AI.

Llegamos a ustedes gracias a:


BrandPosts Qué es BrandPost

Más »
×
Los artículos publicados en esta sección -BrandPosts- son escritos y editados por los proveedores o miembros de la comunidad TI. BrandPosts crea una oportunidad para que un patrocinador proporcione información y comentarios desde su punto de vista, directamente a la audiencia de CTOPerú. El equipo editorial de CTOPerú no participa en la redacción o edición de estos BrandPosts.

Primer contacto

Más »

Recursos

Más »