En un evento en línea celebrado esta semana, OpenAI presentó a GPT-4o, su nuevo modelo de inteligencia artificial. Es aquel que sustenta el funcionamiento de sus principales servicios, con ChatGPT a la cabeza. Hay buenas noticias en el anuncio. Por un lado, lo postulan como el producto “más rápido e inteligente” en la historia de la organización. Además, se ofrece en forma gratuita para todos los usuarios, sin restringirse a la variante que requiere una suscripción.
GPT-4o: todo sobre el nuevo modelo de inteligencia artificial de OpenAI
La principal promesa de GPT-4o es su capacidad para actuar de forma cada vez más parecida a como lo hacemos los humanos. Al respecto, la directora de tecnología de OpenAI, Muri Murati, señaló que el nuevo modelo es equiparable como GPT-4 —en este momento exclusivo para la versión paga de ChatGPT—, aunque con mejoras en las interacciones por texto, audio e imágenes.
“GPT-4o razona a través de la voz, el texto y la visión”, dijo Murati en la presentación.
GPT-4o también llegará con mejoras en su sentido de la visión. Por ejemplo, el usuario podrá compartir imágenes con el modelo para que este la analice. Una de las funciones más interesantes es para los programadores: si visualiza código, puede indicar si hay errores en él.
El flamante modelo es multimodal en forma nativa. ¿Qué significa esto? Que es capaz de trabajar con diferentes formatos en simultáneo. Por ejemplo, reconocer imágenes y trabajar con texto al unísono. En este caso, también trabaja con audios.
GPT-4o suma un nuevo modo de voz: un paso adelante para los asistentes virtuales
Según explicó el grupo en su evento de presentación, el nuevo modelo de IA rebaja los tiempos de demora en sus respuestas y ofrece interacciones más naturales, de mayor realismo. Prometieron que el renovado sistema comprenderá el lenguaje de un modo análogo al diálogo entre humanos. Por caso, si está hablando y se lo interrumpe, sabrá cómo continuar con la conversación.
El propósito, como se ha dicho, es que estos modelos de lenguaje masivo (LLM, por sus siglas en inglés) sean cada vez más parecidos a los humanos. GPT va en ese camino. En las demostraciones realizadas durante la transmisión, la flamante tecnología interactuó verbalmente con diferentes tonos de voz, emuló diversos estados de ánimo, cantó, rio e incluso suspiró. También demostró su capacidad para hacer traducciones al instante, sin la necesidad de usar comandos: simplemente, hay que hablar para que haga su trabajo en tiempo real.
¿Cuándo se lanza GPT-4o?
OpenAI informó que ya comenzó el despliegue de su nuevo modelo entre todos los usuarios, tanto en las versiones pagas como en la de acceso gratuito. El lanzamiento es gradual, además de iterativo, es decir, en diversas instancias. En el arranque, ofrece solo las novedades vinculadas a textos e imágenes.
Ahora bien, ¿para qué pagarían los suscriptores, si GPT-4o es gratis? Naturalmente, OpenAI tiene la respuesta. Los que pagan por ChatGPT Plus seguirán teniendo beneficios y menos limitaciones. Además, serán ellos los que accedan en primera instancia a las mejoras en las interacciones por voz con el modelo de IA.