[17/05/2024] En la carrera por la supremacía en el campo de la inteligencia artificial, se realizaron dos eventos casi en simultáneo. El primero de ellos fue el realizado el lunes: el lanzamiento de GPT-4o, del cual hablamos aquí; y el segundo fue el realizado el martes: Google I/O 2024, la conferencia para desarrolladores de Google. Los eventos se realizaron con un día de diferencia, pero ambos buscaban presentar las más recientes novedades en los modelos de inteligencia artificial de cada una de las firmas.
Mientras el evento de OpenAI se centró en los casos de uso que se puede dar a GPT-4o, el de Google I/O se centró en cómo la inteligencia artificial de la firma (Gemini) se ha incorporado en muchos de los productos ya existentes -o por lanzarse- de la compañía, otorgándoles funciones novedosas.
Sundar Pichai, CEO de Google y Alphabet, junto a otros 12 expositores, detallaron cómo Gemini participaría en las actividades cotidianas de una persona, como revisar sus correos electrónicos, recibir llamadas telefónicas, atender videoconferencias, crear imágenes, videos y sonidos, entre otras tareas que ahora se podrán hacer de manera más sencilla y productiva gracias a la incorporación de la inteligencia artificial.
A continuación, las novedades que se presentaron en este muy nutrido evento.
AI Overviews, Ask Photos y Gemini
"Hemos estado innovando en inteligencia artificial por más de una década, e innovando en cada capa del stack: investigación, productos, infraestructura. Vamos a hablar de todo eso hoy; aun así, nos encontramos en los primeros días del cambio en la plataforma de inteligencia artificial, vemos muchas oportunidades para creadores, desarrolladores, startups, para todos”, afirmó Pichai al iniciar su presentación.
El ejecutivo luego se centró en la estrella del día: el modelo de inteligencia artificial Gemini. En realidad, el actual modelo en uso se lanzó hace poco menos de un año como Gemini 1.5 Pro, este podía correr un millón de tokens de forma consistente, más que cualquier otro modelo fundacional y, en la actualidad, más de 1,5 millones de desarrolladores utilizan los modelos de Gemini.
De hecho, el modelo puede demostrar su enorme adopción con el hecho de que se ha ido integrando poco a poco en todos los servicios de la compañía, y ahora las personas pueden interactuar directamente con él a través de su aplicación móvil, tanto en Android como en iOS. Además de Gemini existe otra versión, denominada Gemini Advanced, que ofrece acceso a más funciones y que también está siendo ampliamente adoptada. Prueba de ello, comentó el ejecutivo, es que más de un millón de personas se han registrado para probar Gemini Advanced en tan solo tres meses luego de su lanzamiento.
¿Qué mejoras se han logrado con estos modelos? Una de las transformaciones más notorias que se han logrado gracias a Gemini se ha producido en Google Search. En su tradicional servicio de búsqueda se ha experimentado con la Search Generative Experience (SGE) con la cual se han respondido millones consultas más complejas y largas, incluyendo consultas mediante imágenes; el resultado ha sido no solo un incremento en el uso de las búsquedas, sino también un incremento en la satisfacción del usuario.
En base a estas herramientas, se lanzó AI Overviews, una característica posible gracias al uso de la SGE que permite crear resúmenes y resultados en base al uso de la inteligencia artificial generativa. Esta característica ya se encuentra disponible en Estados Unidos y pronto en algunos otros países seleccionados.
Otra de las novedades que mostró el CEO de Google fue una nueva funcionalidad en Photos, el servicio de almacenamiento de fotos de Google que recibe alrededor de seis mil millones de imágenes cada día. Ahora gracias a la incorporación de Gemini, uno puede preguntar a Photos cuál es la placa de su auto y la inteligencia artificial buscará en las fotos hasta encontrar la foto con la respuesta y mostrársela. O también puede pedirle a Photos que le muestre cómo ha ido progresando el nivel de natación de su hija; gracias a Gemini, Photos mostrará una selección, un resumen de las fotos en la que se podrá ver la evolución de la técnica de natación de la niña.
Esta función se llama Ask Photos y se lanzará este verano septentrional -es decir, en nuestro invierno-.
Estas funciones se han logrado gracias a la introducción de Gemini dentro de los productos de Google. Ahora -y este es otro de los anuncios- Gemini 1.5 Pro estará disponible para todos los desarrolladores a nivel global. Adicionalmente, Pichai anunció que la ventana de contexto de Gemini 1.5 Pro se ampliará a dos millones de tokens, aunque por lo pronto esta característica solo se encontrará disponible para desarrolladores en private preview.
Workspace, Audio Overviews y agentes
Siguiendo con los anuncios, se mostró lo que el modelo de inteligencia artificial puede hacer dentro de la suite de Workspace. Por ejemplo, si uno tiene muchos correos electrónicos y desea estar al tanto de lo que un grupo de ellos dicen -por ejemplo, los que manda el colegio del hijo-, ahora simplemente puede pedir a Gmail que haga un resumen de ellos, indicando los puntos más importantes. Esto incluye los documentos que se encuentren adjuntos a ellos o incluso una grabación de Meet. Incluso se puede pedir a Gemini -a través de una caja para prompts dentro de Gmail- que realice una comparación de diversos documentos para establecer -por ejemplo, dentro de un grupo de cotizaciones- cuál es la mejor alternativa. Todo sin necesidad de abrir varios mensajes de correo, leerlos y compararlos manualmente. Además, Gemini muestra respuestas sugeridas de acuerdo con el contexto.
Adicionalmente a los ejemplos del correo electrónico, Gemini puede trabajar juntamente con las aplicaciones que se encuentran dentro de Workspace. Puede, por ejemplo, encontrar una cita de negocios en el Calendar y preparar todo el material necesario para presentar en esta reunión. Igualmente, uno puede pedirle un análisis de los gastos que se realizan personalmente y que se encuentran en una hoja de cálculo, Gemini ofrecerá una pormenorizada explicación de cómo se gastó el dinero.
Este tipo de 'automatizaciones' se encontrarán disponibles desde setiembre de este año.
Para el futuro de Workspace y Gemini se está trabajando en un teammate virtual; es decir, un compañero de trabajo virtual que puede tener un rol específico -por ejemplo, monitorear y rastrear los proyectos u organizar la información y proporcionar contexto-, además de su propia cuenta de Workspace. Se le puede dar un nombre y participará en las reuniones virtuales del grupo en la que, además de realizar su trabajo puede interactuar mediante una interfaz de chat con sus 'colegas'. Se le puede preguntar, por ejemplo, si el grupo está a tiempo para realizar el lanzamiento de un producto en la fecha programada, y el asistente responderá en base a toda la información que tiene del progreso del proyecto.
Otro de los productos en los que ahora se puede encontrar Gemini es Notebook LM, un asistente de investigación virtual que se encuentra en etapa experimental. En Notebook LM el estudiante puede crear resúmenes, una guía de estudios, una sección de preguntas frecuentes e incluso pruebas. Ahora, con el uso de Gemini, el usuario puede acceder a todas estas creaciones en la forma de una discusión hablada. Esta nueva funcionalidad se llama Audio Overviews.
Esta nueva funcionalidad permite tomar todas las fuentes cargadas y generar una discusión, hablada y personalizada para que el estudiante la escuche y aprenda como si estuviese en una conversación real. Es más, el estudiante puede ingresar a la conversación y guiarla hacia donde mejor le parezca.
En otra parte de las demostraciones se cambió de temática hacia los agentes. Los agentes son sistemas inteligentes que pueden razonar, planear y memorizar; pueden pensar en varios pasos hacia adelante, trabajar entre diversos softwares y sistemas, todo para 'lograr hacer algo' por nosotros, pero bajo nuestra supervisión.
Un caso de uso de los agentes puede ser la devolución de un producto que no ha terminado de gustar al comprador. Gemini puede buscar en el correo electrónico el recibo, llenar el formulario de devolución, e incluso programar el día y hora para que lo recojan. Este es el tipo de tareas que se desean resolver con los sistemas denominados agentes.
"El poder de Gemini con la multimodalidad (multimodality), el contexto largo (long context) y los agentes nos acercan a nuestra meta última: hacer que la inteligencia artificial sea útil para todos”, afirmó Pichai.
DeepMind, Gemini 1.5 Flash y Project Astra
El año pasado se creó DeepMind, una 'superunidad' dentro de Google que combina todo el talento relativo a la inteligencia artificial. Esta unidad creó sistemas de inteligencia artificial que pueden, por ejemplo, transformar el lenguaje y la visión en acciones para robots, navegar por ambientes virtuales complejos, resolver problemas matemáticos complejos e incluso descubrir cientos de nuevo materiales.
La semana pasada, esta unidad lanzó el modelo AlphaFold de siguiente generación, el cual puede predecir la estructura y las interacciones prácticamente de todas las moléculas de la vida, incluyendo la forma en que las proteínas interactúan con las cadenas de ADN y ARN.
Estos desarrollos se logran gracias a que la compañía cuenta con una gran infraestructura para la era de la inteligencia artificial, incluyendo las unidades de procesamiento tensor optimizadas. Y en el centro de todo este esfuerzo se encuentra Gemini.
Pero Gemini no es el único modelo. En ocasiones se requiere de una menor latencia y un menor costo de servicio; por ello Google lanzó en el evento Gemini 1.5 Flash.
Flash es un modelo más ligero, está diseñado para ser rápido y costo eficiente a escala, mientras que al mismo tiempo mantiene capacidades de razonamiento multimodal y de contexto largo. El modelo se encuentra optimizado para tareas en donde lo más importante es la baja latencia y la eficiencia.
Desde el martes 14 se puede usar Gemini 1.5 Flash -y Gemini 1.5 Pro- con hasta un millón de tokens en Google AI Studio y Vertex AI, pero los desarrolladores se pueden registrar para probar dos millones de tokens.
Otro de los anuncios dentro de la temática de los modelos fue Project Astra. Este proyecto es un agente de inteligencia artificial que puede ser útil en el día a día, para ello se busca que los agentes puedan responder de la misma manera en que lo haría una persona, recordar y entender el contexto para tomar acciones. Además, será personal, proactivo y capaz de aprender para que su usuario pueda dialogar con él de manera natural. Hasta el momento se ha trabajado para lograr estas características, además de proporcionar al agente una serie de entonaciones para que pueda responder rápidamente en una conversación.
El resultado -que se pudo apreciar en un video de demostración- es un agente que habla naturalmente con su usuario, capaz de reconocer su entorno y recordar cosas de él, además de reconocer conceptos como el gato en la caja de Schrödinger. Algunas de estas características llegarán a los productos de Google durante este año.
Generative Media
La inteligencia artificial de Google también ha llegado -por supuesto- a los medios generativos; es decir, a las imágenes, la música y los videos. Google ha estado mejorando la calidad, la seguridad e incrementando el acceso a estos medios.
Para el caso de las imágenes ha creado el modelo Imagen 3. Este modelo es muy realista y entiende los prompts escritos de la forma en que la gente en verdad escribe. Los que deseen pueden registrarse para probarlo en ImageFX, que es parte de las herramientas que se pueden encontrar en labs.google, y pronto se encontrará disponible para los desarrolladores en Vertex AI.
Otra área generativa es la música. Junto con YouTube, Google ha creado Music AI Sandbox, una suite de herramientas profesionales de inteligencia artificial para la música que puede crear nuevas secciones instrumentales desde cero, estilos de transferencia entre pistas y más.
Finalmente, en el caso del video ha creado Veo, un modelo que puede crear videos de alta calidad en 1080p a partir de texto, imágenes y prompts de video. Veo se puede usar en la nueva herramienta experimental llamada VideoFX. En las siguientes semanas algunas de estas características estarán disponibles para creadores seleccionados a través de VideoFX en labs.google; hay lista de espera.
Trillium, Search, Gemini App y Gems
En el campo de la infraestructura para inteligencia artificial, Pichai presentó la sexta generación de las TPU denominadas Trillium. Esta TPU ofrece 4,7 veces más desempeño computacional por chip con respecto a la generación previa, y estará disponible para los clientes de nube de Google a finales de este año. Además, como proveedor de nube, ofrecerá los GPU Blackwell de Nvidia a inicios del siguiente año.
La infraestructura es fundamental para sostener el servicio principal que ha caracterizado a Google: Search. Este servicio también ha experimentado cambios gracias a la inteligencia artificial, uno de ellos es el llamado 'Circle to search', una función que permite reducir la búsqueda en una imagen al objeto que uno rodee dibujando un círculo alrededor de él; por ejemplo, si en una foto una chica viste unas zapatillas el usuario puede dibujar un círculo alrededor de sus zapatillas para buscar información sobre ese producto.
Pero quizás el avance más llamativo sea la propia Gemini app; es decir, Gemini dentro del teléfono inteligente. Esta aplicación es nativamente multimodal por lo que el usuario podrá interactuar con ella a través del texto, la voz o la cámara del teléfono de forma natural. Cuando se utiliza la voz para comunicarse con el modelo, la experiencia se denomina Gemini Live. Uno puede realizar preguntas a Gemini y el modelo contestará de forma natural. Es más, para este año se planea incorporar las capacidades que se están experimentando en el proyecto Astra en la aplicación de Gemini; es decir, cuando uno se encuentre en Live podrá activar la cámara para que el modelo pueda ver lo que el usuario ve y responder al ambiente en tiempo real.
Adicionalmente, se está presentando una nueva característica en Gemini que le permitirá al usuario personalizar la aplicación a sus propias necesidades y crear así expertos en cualquier tema que uno desee. A esta característica se le denomina Gems. Para crear un Gem, simplemente hay que escribir un prompt en la caja de instrucciones y darle un nombre. Por ejemplo, se puede crear un Gem que actúe como un coach de redacción, un tutor de matemáticas o un revisor de código. Gems se lanzará en los siguientes meses.
En el caso de Gemini Advanced, en este modelo se va a implementar una experiencia de planeamiento de viajes para el verano septentrional.
Android y Gemini Nano
Como era de esperar, Gemini también ha permeado dentro de Android y la forma en que los va a hacer transcurre por tres avances que se verán este año. El primero de ellos es la incorporación de las búsquedas basadas en inteligencia artificial en el móvil. Segundo, Gemini se va a convertir en el asistente de inteligencia artificial de Android; y tercero, se está empleando la inteligencia artificial dentro de los propios dispositivos (on-device AI) para lograr experiencias rápidas y manteniendo privados los datos sensibles del usuario.
En el caso de las búsquedas basadas en inteligencia artificial, se ha dado un primer paso con el 'circle to search' -del que se habló líneas arriba-; pero ahora, más allá de encerrar en un círculo un par de zapatillas para averiguar sus características, se podrá utilizar Circle to search para marcar, por ejemplo, el planteamiento de un problema de matemáticas y que el modelo proporcione la forma de resolverlo -no simplemente la respuesta-. Así, Circle to search se convierte en una especie de asistente escolar. Esta característica ya se encuentra disponible en ciertos dispositivos con Android, y se espera que durante este año Circle to search pueda resolver problemas incluso más complejos que involucren fórmulas, diagramas, gráficos y más. Circle to search sólo se encuentra disponible en Android y actualmente está presente en más de 100 millones de dispositivos, pero se espera duplicar esa cifra para finales de este año. De esta forma, Gemini se está convirtiendo en una parte fundamental de la experiencia con Android.
El segundo avance, el que Gemini se convierta en el asistente de inteligencia artificial de Android, también ha recibido mejoras. Gemini ahora es más consciente del contexto. Por ejemplo, en medio de una conversación a través de un chat se puede acudir a Gemini para obtener una imagen de lo que se está hablando y 'jalarla' directamente al chat. Además, si se busca información sobre un tema, Gemini puede darse cuenta de que lo que se requiere es un video y esa es la primera sugerencia que aparece en la búsqueda. Es más, sin haber visto el video el usuario puede preguntar a Gemini cosas específicas que se explican en el video y obtener una respuesta escrita. Lo mismo ocurre si la persona con la que se está conversando envía un documento en PDF.
Y en cuanto al tercer avance, incorporar la inteligencia artificial de Google directamente en el sistema operativo mejora toda la experiencia con el dispositivo. De hecho, de acuerdo con la compañía, Android es el primer sistema operativo móvil en incluir un modelo fundacional incorporado en el dispositivo. Esto permite llevar a Gemini del centro de datos a los bolsillos de los usuarios para que la experiencia sea más rápida. Además, funciona con baja latencia o incluso con pérdida de señal.
Una función interesante: puede reconocer cuándo una llamada es un posible fraude escuchando ciertas frases clave -como cuando a uno le piden depositar alguna suma 'a una cuenta segura para proteger el dinero'- durante la llamada. Se muestra una ventana roja indicando la razón por la cual la considera fraude y las opciones para continuar con la llamada o colgar.
¿Preocupado de que se esté escuchando la llamada? Hay que recordar que el modelo (Gemini Nano) se encuentra en el dispositivo por lo que, en realidad, la información de la llamada se procesó en el propio dispositivo, no viajó a un centro de datos. La información del usuario se mantuvo privada.
Estos avances se van a comenzar a incorporar este año mediante la inclusión de Gemini Nano en los teléfonos Pixel.
Para los desarrolladores
Era evidente que habría novedades específicas para los desarrolladores en una conferencia para desarrolladores. Las más generales ya se señalaron: la disponibilidad de Gemini 1.5 y de Gemini Flash. Ambos modelos se encuentran disponibles de forma global en más de 200 países y territorios, y para probarlos hay que ser cliente de Google Cloud y visitar AI Studio o Vertex AI. Ambos modelos son multimodales de forma nativa, eso significa que el usuario puede intercalar texto, imágenes, audio y video como input; y si el desarrollador visita ai.google.dev/gemini-api puede registrarse en una lista de espera para probar los modelos con una ventana de contexto de dos millones de tokens para Gemini 1.5 Pro.
También se están añadiendo un conjunto de nuevas características para APIs, como video frame extraction, que se va a encontrar en la API de Gemini; parallel function calling, con la cual se podrá devolver más de una function call a la vez; y context caching, con la cual el desarrollador podrá enviar todos sus archivos al modelo una sola vez y no tendrá que volverlos a enviar una y otra vez. Eso hará que el long context sea incluso más útil y asequible.
Estas características se entregan el próximo mes.
Además, se señaló que los costos de los modelos serán los siguientes: 1.5 Pro costará siete dólares por millón de tokens, y en el caso de que el prompt sea de 128k, o menos, el precio se reducirá a 3,50 dólares. Por su parte, 1.5 Flash se encontrará desde 35 centavos de dólar por millón de tokens.
¿Qué modelo es mejor para qué caso de uso? Se sugiere utilizar 1.5 Pro para tareas complejas, donde realmente se quiera una respuesta de muy alta calidad, aunque se requiera de un poco más de tiempo para obtener la respuesta. Mientras, se sugiere 1.5 Flash para tareas rápidas, donde lo que más importa es la velocidad del modelo. Los que deseen probar los modelos los podrán encontrar en ai.google.dev.
También se presentaron novedades en Gemma, la familia de modelos abiertos de Google. Gemma se crea con las mismas investigaciones y tecnología que Gemini y ofrece un buen desempeño. Desde que se creó hace tres meses ha sido descargado millones de veces desde los principales hubs de modelos (Kaggle, Hugging Face y Vertex AI). Desarrolladores e investigadores han estado usando y personalizando el modelo Gemma base y usando algunas de las variantes preentrenadas como RecurrentGemma y CodeGemma.
A estas variantes se une ahora PaliGemma, el primer modelo de lenguaje para visión.
Este modelo se encuentra optimizado para varias formas de captura de video, preguntas y respuestas visuales, y otras tareas de etiquetado de imágenes; y ya se encuentra disponible para ser probado.
También se anunció la llegada de Gemma 2, la siguiente generación de Gemma que se encontrará disponible en junio.
Uno de los pedidos más frecuentes de los desarrolladores es contar con un modelo Gemma de mayor tamaño, pero que aún pueda ser de un tamaño que permita su facilidad de uso. Por ello, en unas semanas, se añadirá un nuevo modelo de 27 mil millones de parámetros a Gemma 2. Este tamaño está optimizado por Nvidia para que corra en GPUs de siguiente generación y para correr de forma eficiente en un solo host de TPU en Vertex AI. Entonces, este ratio calidad/tamaño superará, de acuerdo con la firma, a modelos que tienen el doble de su tamaño.
Finalmente
Hacia la conclusión del evento, la compañía también tomó en consideración los riesgos y las nuevas preguntas que surgirán con el desarrollo de la inteligencia artificial. Para enfrentar estas complejidades, Google ha establecido un conjunto de principios (ser socialmente benéfico, evitar crear o reforzar sesgos injustos, crear y evaluar pensando en la seguridad, ser responsable ante las personas, incorporar principios de diseño relativos a la privacidad, defender estándares altos de excelencia científica, y que lo que esté disponible lo sea para usos acordes con estos principios) con los cuales enfrenta los riesgos y a la vez busca maximizar los beneficios para la sociedad.
Para ello utilizan herramientas como el Red Teaming, con la cual prueban sus propios modelos y tratan de quebrarlos para identificar sus debilidades. Además, están desarrollando una técnica avanzada a la que denominan Red Teaming Asistido por Inteligencia Artificial.
Jose Antonio Trujillo, CTOPerú