Noticias

NVIDIA anuncia Nemotron-4 340B

Para entrenar modelos de lenguaje de gran tamaño

[17/06/2024] NVIDIA ha anunciado Nemotron-4 340B, una familia de modelos abiertos que los desarrolladores pueden utilizar para generar datos sintéticos para entrenar modelos de lenguaje de gran tamaño (LLM) para aplicaciones comerciales en el sector sanitario, financiero, manufacturero, minorista y cualquier otro sector.

"Los datos de entrenamiento de alta calidad desempeñan un papel fundamental en el rendimiento, la precisión y la calidad de las respuestas de un LLM personalizado, pero los conjuntos de datos sólidos pueden ser prohibitivamente caros y de difícil acceso, comentó Ankit Patel, director senior de NVIDIA, en el comunicado de prensa.

A través de una licencia de modelo abierto permisiva única, el ejecutivo anotó que Nemotron-4 340B ofrece a los desarrolladores una forma gratuita y escalable de generar datos sintéticos que pueden ayudar a crear potentes LLM.

"La familia Nemotron-4 340B incluye modelos de base, instrucción y recompensa que forman una canalización para generar datos sintéticos que se utilizan para entrenar y refinar LLM. Los modelos están optimizados para funcionar con NVIDIA NeMo, un marco de código abierto para el entrenamiento de modelos de extremo a extremo, incluida la curación, personalización y evaluación de datos. También están optimizados para la inferencia con la biblioteca de código abierto NVIDIA TensorRT-LLM, explicó Patel.

Nemotron-4 340B ya se puede descargar desde Hugging Face. Los desarrolladores pronto podrán acceder a los modelos en ai.nvidia.com, donde se empaquetarán como un microservicio NVIDIA NIM con una interfaz de programación de aplicaciones estándar que se puede implementar en cualquier lugar.

Navegar por Nemotron para generar datos sintéticos

El ejecutivo indicó que los LLM pueden ayudar a los desarrolladores a generar datos de entrenamiento sintéticos en escenarios en los que el acceso a conjuntos de datos etiquetados grandes y diversos es limitado.

"El modelo Nemotron-4 340B Instruct crea diversos datos sintéticos que imitan las características de los datos del mundo real, lo que ayuda a mejorar la calidad de los datos para aumentar el rendimiento y la solidez de los LLM personalizados en varios dominios, sostuvo Patel.

Luego, agregó, para aumentar la calidad de los datos generados por IA, los desarrolladores pueden usar el modelo de recompensa Nemotron-4 340B para filtrar las respuestas de alta calidad. "Nemotron-4 340B Reward califica las respuestas en cinco atributos: utilidad, corrección, coherencia, complejidad y verbosidad.

Ajuste fino con NeMo, optimización para la inferencia con TensorRT-LLM

Con NVIDIA NeMo y NVIDIA TensorRT-LLM de código abierto, el ejecutivo anotó que los desarrolladores pueden optimizar la eficiencia de sus modelos de instrucción y recompensa para generar datos sintéticos y puntuar las respuestas.

"Todos los modelos Nemotron-4 340B están optimizados con TensorRT-LLM para aprovechar el paralelismo tensorial, un tipo de paralelismo de modelos en el que las matrices de peso individuales se dividen en varias GPU y servidores, lo que permite una inferencia eficiente a escala, sostuvo Patel.

Nemotron-4 340B Base, entrenado con nueve billones de tokens, se puede personalizar utilizando el marco NeMo para adaptarse a casos de uso o dominios específicos. Este proceso de ajuste fino se beneficia de una gran cantidad de datos previos al entrenamiento y produce resultados más precisos para tareas posteriores específicas, indicó el ejecutivo.

"Hay una variedad de métodos de personalización disponibles a través del marco NeMo, incluido el ajuste fino supervisado y los métodos de ajuste fino eficientes de parámetros, como la adaptación de bajo rango o LoRA, anotó Patel.

Evaluación de la seguridad del modelo y primeros pasos

De acuerdo a Patel, el modelo Nemotron-4 340B Instruct se sometió a una exhaustiva evaluación de seguridad, incluidas pruebas adversas, y tuvo un buen rendimiento en una amplia gama de indicadores de riesgo. "Los usuarios deben realizar una evaluación cuidadosa de los resultados del modelo para asegurarse de que los datos generados sintéticamente sean adecuados, seguros y precisos para su caso de uso.

Llegamos a ustedes gracias a:


BrandPosts Qué es BrandPost

Más »
×
Los artículos publicados en esta sección -BrandPosts- son escritos y editados por los proveedores o miembros de la comunidad TI. BrandPosts crea una oportunidad para que un patrocinador proporcione información y comentarios desde su punto de vista, directamente a la audiencia de CTOPerú. El equipo editorial de CTOPerú no participa en la redacción o edición de estos BrandPosts.

Primer contacto

Más »

Recursos

Más »