Noticias

DeepSeek-R1 ya está disponible con NVIDIA NIM

Como una vista previa de microservicios

[03/02/2025] Para ayudar a los desarrolladores a experimentar de forma segura con las capacidades de DeepSeek-R1 y crear sus propios agentes especializados, el modelo DeepSeek-R1 de 671 mil millones de parámetros ya está disponible como una vista previa de microservicios NVIDIA NIM en build.nvidia.com. El microservicio NIM de DeepSeek-R1 puede entregar hasta 3.872 tokens por segundo en un solo sistema NVIDIA HGX H200.

"Los desarrolladores pueden probar y experimentar con la interfaz de programación de aplicaciones (API), que se espera que esté disponible pronto como un microservicio NIM descargable, parte de la plataforma de software NVIDIA AI Enterprise, sostuvo Erik Libras Pounds, director de marketing de productos en NVIDIA, en una entrada de blog.

Según el ejecutivo, el microservicio NIM de DeepSeek-R1 simplifica las implementaciones con soporte para API estándar de la industria. Las empresas pueden maximizar la seguridad y la privacidad de los datos ejecutando el microservicio NIM en su infraestructura de computación acelerada preferida. "Con NVIDIA AI Foundry con el software NVIDIA NeMo, las empresas también podrán crear microservicios DeepSeek-R1 NIM personalizados para agentes de IA especializados.

Pounds comentó que DeepSeek-R1 es un modelo de gran mezcla de expertos (MoE). "Incorpora la cantidad de 671 mil millones de parámetros, 10 veces más que muchos otros LLM populares de código abierto, lo que admite una gran longitud de contexto de entrada de 128mil tokens. El modelo también utiliza un número extremo de expertos por capa. Cada capa de R1 tiene 256 expertos, y cada token se enruta a ocho expertos separados en paralelo para su evaluación.

Agregó que la entrega de respuestas en tiempo real para R1 requiere muchas GPU con alto rendimiento de cómputo, conectadas con comunicación de alto ancho de banda y baja latencia para enrutar tokens de solicitud a todos los expertos para la inferencia. "En combinación con las optimizaciones de software disponibles en el microservicio NVIDIA NAM, un solo servidor con ocho GPU H200 conectadas mediante NVLink y NVLink Switch puede ejecutar el modelo DeepSeek-R1 completo de 671 mil millones de parámetros a una velocidad de hasta 3.872 tokens por segundo. Este rendimiento es posible gracias al uso del motor de transformación FP8 de la arquitectura NVIDIA Hopper en cada capa, y los 900 GB/s de ancho de banda NVLink para la comunicación experta del MoE.

Pounds anotó, asimismo que, obtener todas las operaciones de coma flotante por segundo (FLOPS) de rendimiento de una GPU es fundamental para la inferencia en tiempo real. "La arquitectura NVIDIA Blackwell de próxima generación dará un gran impulso al escalado en tiempo de prueba en modelos de razonamiento como DeepSeek-R1 con Tensor Cores de quinta generación que pueden ofrecer hasta 20 petaflops de rendimiento de cómputo máximo FP4 y un dominio NVLink de 72 GPU optimizado específicamente para la inferencia.

Llegamos a ustedes gracias a:


BrandPosts Qué es BrandPost

Más »
×
Los artículos publicados en esta sección -BrandPosts- son escritos y editados por los proveedores o miembros de la comunidad TI. BrandPosts crea una oportunidad para que un patrocinador proporcione información y comentarios desde su punto de vista, directamente a la audiencia de CTOPerú. El equipo editorial de CTOPerú no participa en la redacción o edición de estos BrandPosts.

Primer contacto

Más »

Recursos

Más »