Noticias

IBM amplía la familia de modelos Granite

Con una nueva IA multimodal y de razonamiento

[07/03/2025] IBM ha presentado la próxima generación de su familia LLM Granite, Granite 3.2, señalando que corresponde a un esfuerzo continuo por ofrecer una IA empresarial pequeña, eficiente y práctica para un impacto en el mundo real.

"Todos los modelos Granite 3.2 están disponibles bajo la licencia permisiva Apache 2.0 en Hugging Face. Los modelos seleccionados están disponibles hoy en IBM watsonx.ai, Ollama, Replicate y LM Studio, y se espera que pronto estén disponibles en RHEL AI 1.5, lo que brinda capacidades avanzadas a las empresas y a la comunidad de código abierto, comentó Sriram Raghavan, vicepresidente de IBM AI Research, en el comunicado de prensa, destacando a:

  • Un nuevo modelo de lenguaje de visión (VLM) para tareas de comprensión de documentos que demuestra un rendimiento que iguala o supera el de modelos significativamente más grandes (Llama 3.2 11B y Pixtral 12B) en los puntos de referencia empresariales esenciales DocVQA, ChartQA, AI2D y OCRBench1. "Además de los sólidos datos de entrenamiento, IBM utilizó su propio kit de herramientas Docling de código abierto para procesar 85 millones de archivos PDF y generó 26 millones de pares sintéticos de preguntas y respuestas para mejorar la capacidad del VLM para manejar flujos de trabajo complejos y con gran cantidad de documentos, explicó el ejecutivo.
  • Capacidades de cadena de pensamiento para mejorar el razonamiento en los modelos 3.2, 2B y 8B, con la capacidad de activar o desactivar el razonamiento para ayudar a optimizar la eficiencia. "Con esta capacidad, el modelo 8B logra mejoras de dos dígitos con respecto a su predecesor en los puntos de referencia de seguimiento de instrucciones como ArenaHard y Alpaca Eval sin degradar la seguridad o el rendimiento en otros lugares. Además, con el uso de nuevos métodos de escalado de inferencia, el modelo Granite 3.2 8B se puede calibrar para rivalizar con el rendimiento de modelos mucho más grandes como Claude 3.5 Sonnet o GPT-4o en puntos de referencia de razonamiento matemático como AIME2024 y MATH500, comentó Raghavan.
  • Opciones de tamaño reducidas para los modelos de seguridad Granite Guardian que mantienen el rendimiento de los modelos Granite 3.1 Guardian anteriores con una reducción del 30% en el tamaño. "Los modelos 3.2 también introducen una nueva característica llamada confianza verbalizada, que ofrece una evaluación de riesgos más matizada que reconoce la ambigüedad en el monitoreo de la seguridad, explicó el ejecutivo.

Raghavan señaló que Granite 3.2 es un paso importante en la evolución de la cartera y la estrategia de IBM para ofrecer una IA pequeña y práctica para las empresas. "Si bien los enfoques de cadena de pensamiento para el razonamiento son poderosos, requieren una potencia de cálculo sustancial que no es necesaria para todas las tareas. Es por eso que IBM ha introducido la capacidad de activar o desactivar la cadena de pensamiento mediante programación. En el caso de tareas más sencillas, el modelo puede funcionar sin razonamiento para reducir la sobrecarga de proceso innecesaria. Además, otras técnicas de razonamiento, como el escalado de inferencias, han demostrado que el modelo Granite 3.2 8B puede igualar o superar el rendimiento de modelos mucho más grandes en los puntos de referencia de razonamiento matemático estándar. La evolución de los métodos, como el escalado de inferencias, sigue siendo un área clave de enfoque para los equipos de investigación de IBM.

Junto con los modelos Granite 3.2 de instrucción, visión y guardarraíl, IBM está lanzando la próxima generación de sus modelos TinyTimeMixers (TTM) (parámetros inferiores a 10 millones), con capacidades para la predicción a largo plazo de hasta dos años en el futuro. "Estas son herramientas poderosas en el análisis de tendencias a largo plazo, incluidas las tendencias financieras y económicas, la previsión de la demanda de la cadena de suministro y la planificación del inventario estacional en el comercio minorista, finalizó Raghavan.

Llegamos a ustedes gracias a:


BrandPosts Qué es BrandPost

Más »
×
Los artículos publicados en esta sección -BrandPosts- son escritos y editados por los proveedores o miembros de la comunidad TI. BrandPosts crea una oportunidad para que un patrocinador proporcione información y comentarios desde su punto de vista, directamente a la audiencia de CTOPerú. El equipo editorial de CTOPerú no participa en la redacción o edición de estos BrandPosts.

Primer contacto

Más »

Recursos

Más »