[15/05/2024] OpenAI, la compañía que el 2022 hizo popular la inteligencia artificial generativa, lanzó una nueva versión de su modelo de inteligencia artificial: GPT-4o. De acuerdo con la firma, este modelo puede 'razonar' en audio, visión y texto en tiempo real.
El modelo -cuya 'o' luego del 4 significa 'omni'- es, de acuerdo con la compañía, un paso adelante hacia una interacción, entre personas y computadoras, mucho más natural, pues acepta cualquier combinación de texto, audio e imagen, y genera cualquier combinación de texto, audio e imagen. La compañía señaló que puede responder a preguntas realizadas mediante audio en tan solo 232 milisegundos -aunque el promedio de la respuesta es de 320 milisegundos- lo cual es un tiempo similar al que usa una persona para responder en una conversación. Antes de GPT4o uno podía utilizar el Voice Mode para hablar con el ChatGPT, pero a latencias que iban de los 2,8 segundos (GPT-3.5) a 5,4 segundos (GPT-4), en promedio.
Por otro lado, GPT-4o iguala el desempeño de GPT-4 Turbo en textos en inglés y en código, y muestra mejoras significativas en texto en idiomas distintos al inglés; es más rápido y 50% más económico en la API, aseguró OpenAI.
Las capacidades
El video de presentación de GPT-4o muestra la versatilidad de este modelo. Un presentador se encuentra hablando con un teléfono inteligente en que, por supuesto, se encuentra ChatGPT contestándole con una voz femenina muy clara y bastante natural, prácticamente, indistinguible de la voz de una persona real, dados los cambios en las tonalidades en base al contexto. De hecho, se podría decir que es una voz que se percibe como muy cordial.
Para mostrar las capacidades de este nuevo chatbot, usando la cámara del teléfono, ChatGPT con GPT-4o ve el espacio en el que se encuentra el presentador y lo describe; es más, describe la vestimenta del presentador y le halaga por elegirla -el presentador viste un polo con el logo de OpenAI-.
En otros videos de presentación también se puede apreciar que esta nueva versión puede funcionar como intérprete en la conversación entre dos personas que hablan dos idiomas distintos, puede darnos su opinión sobre si una vestimenta nos sienta bien, ayudarnos a jugar 'yan ken po' -y determinar quién ganó-, hablarnos de forma sarcástica -incluyendo un tono de voz que deja en claro el sarcasmo-, convertirse en el tutor de un estudiante en matemáticas -haciéndole preguntas para que el propio estudiante llegue a la solución-, o desempeñarse como la moderadora de una reunión virtual por videoconferencia.
La naturalidad con la que se desempeña en cada uno de los videos es impresionante, casi como si los asistentes virtuales que antes se veían solo en películas de ciencia ficción se hubiesen hecho realidad.
En cuanto a la seguridad del modelo, la compañía precisó que GPT-4o tiene la seguridad incorporada a través de técnicas como el filtrado de los datos de entrenamiento, y el refinamiento del comportamiento del modelo a través de una 'postcapacitación'. Además, se han creado nuevos sistemas de seguridad para salvaguardar lo que diga el modelo.
De las evaluaciones que se le han hecho, se ha determinado que el modelo no tiene una puntuación que sobrepase el riesgo Medio en ninguna categoría (ciberseguridad, CBRN, persuasión y autonomía). Esta evaluación se realizó de forma automatizada y con intervención humana. Además, ha pasado por una evaluación del tipo red teaming con más de 70 expertos en campos como psicología social, sesgos, imparcialidad y desinformación.
Aunque muy impresionante, algunos analistas han señalado algunos puntos que no se tocaron durante el lanzamiento, como el tamaño de la inpunt window; es decir, de la cantidad de tokens. Para GPT-4 es de 128 mil, una cifra que queda corta contra el millón de tokens que puede manejar Gemini de Google -que el martes 14 en una conferencia anunció que se incrementaría próximamente a dos millones-, o a los 200 mil del modelo Claude 2.1 de Anthropic.
Además, también se lanzaron dudas sobre el posible mal uso que se pueda dar al audio y reconocimiento visual en tiempo real. Pero, como también señalan, recién se está comenzando a ver lo que podrá, o no, hacer el modelo.
Disponibilidad
Las capacidades de GPT-4o se lanzarán de forma iterativa. Las capacidades de texto e imagen se lanzaron el lunes 13 en ChatGPT. GPT-4o será parte de la capa gratuita, pero para los usuarios Plus tendrá cinco veces más capacidades en cuanto a los límites de los mensajes. En las siguientes semanas, se lanzará una nueva versión del Voice Mode con GPT-4o en alfa dentro de ChatGPT Plus. Los desarrolladores también pueden acceder a GPT-4o en la API como modelo de texto y visión.
Jose Antonio Trujillo, CTOPerú