La Inteligencia Artificial no solo sorprende por la velocidad con la que se ha integrado a nuestra vida cotidiana sino también por la vertiginosa suma de funciones que acumula en poco tiempo.
Esta semana la IA dio un nuevo salto de la mano de Aurora, el desarrollo de la red social X para crear imágenes hiperrealistas, y de OpenAI que sumó a ChatGPT la capacidad de “ver” en tiempo real y procesar ese video para mejorar su chat de voz.
Así, 2024 cierra con dos novedades fuertes y se espera que 2025 llegue con varias más que se podrán conocer en breve cuando arranque el Consumer Electronic Show (CES) en Las Vegas, en los primeros días de enero.
Tu cara me suena
Perón tomando mate con Cristina y Milei, Maradona comiendo un asado con Liam Payne, Ricardo Darín y Guillermo Francella como Mario y Luigi o Enzo Fernández casándose con Julián Álvarez mientras en la boda canta Ariana Grande son solo algunos de los ejemplos que lo que la imaginación de los argentinos pudo crear en Aurora, la IA generativa de la red social X.
La llegada casi sorpresiva de esta herramienta hizo que la red social de Elon Musk fuera la estrella de la semana.
Hablamos de un servicio que permite a los usuarios crear imágenes de forma gratuita con el escenario que deseen y poder editar el resultado hasta obtener lo que estaban imaginando.
Aurora es un desarrollo de X.ai, la compañía que implementa herramientas de IA para la red social X (antes Twitter) y que se integra al chatbot Grok que la compañía lanzó hace algunos meses.
Ya está disponible para los usuarios argentinos y destaca por dos características principales: la calidad y detalles de sus resultados y porque utiliza caras de famosos sin censura.
Aurora fue entrenado con “miles de millones de ejemplos de internet” para “para predecir el siguiente token a partir de datos de texto e imágenes intercalados”, señalaron desde X. O sea, se nutrió de imágenes de personalidades mundialmente reconocidas para poder generar nuevo contenido.
Otra característica distintiva de Aurora es que es un modelo multimodal que admite tanto instrucciones de texto como imágenes que aporta el usuario.
Aurora se especializa en simular fotografías, con un alto nivel de detalle y texturas que imitan el mundo real. Esa capacidad y su extenso entrenamiento le permiten entender con simples instrucciones en castellano la imagen que se busca crear. Incluso objetos de uso cotidiano de los argentinos -como el mate, una parrilla o una camiseta de fútbol- pueden ser incorporados sin inconvenientes.
Para utilizarla solo hay que tener una cuenta en X, y luego hay que entrar en la opción Grok y allí ya se puede redactar la orden. Al igual que en otras plataformas de IA, en la versión móvil entrega un solo resultado, pero en la versión de escritorio puede mostrar hasta cuatro opciones por pedido.
Aurora integra también a Grok, el chatbot de X para poder “charlar” con la IA sobre los cambios que queremos aplicar a las creaciones.
A la par que asombran sus resultados, muchos se muestran preocupados por estos “deepfakes” ya que sienten que muchas personas no podrán distinguir entre una foto real y una creada por la IA.
Los ojos de ChatGPT
Capturar el mundo como lo vemos los humanos es la meta más ambiciosa de cualquier desarrollo de Inteligencia Artificial y OpenAI dio un nuevo paso en la carrera con su nueva característica para el Modo de voz avanzado en ChatGPT.
El anuncio fue parte de una especie de calendario de adviento de la empresa donde cada cada día hasta Navidad anuncian una innovación en su servicio.
La herramienta integrará el procesamiento de video en tiempo real y eso le permitirá a chatbot ofrecer respuestas más precisas a los usuarios al poder ver lo mismo que ellos.
Así, a través de la cámara del teléfono, ChatGPT podrá entender mejor el contexto del usuario y podrá brindar información más concreta.
El experto español y creador de contenido Raúl Ordóñez compartió un video muestra cómo funciona la función de “ver” en ChatGPT.
Hasta ahora varios desarrollos de IA eran capaces de hacer esto pero con las fotos cuando el usuario compartía una imagen y hacía una pregunta.
OpenAI aún no pone esta herramienta a disposición de todos los usuarios y cuando lo haga no será gratis. Sin embargo, muchos de los suscriptores a la versión plus del servicio ya la están probando.
Ser lo más natural posible es el objetivo de OpenAi y por eso sumó varias voces con distintos tonos para que el usuario sintiera que hablaba con otro humano a pesar de saber que no es así. Incluso la tonada argentina está disponible dentro del servicio.
Ahora, con el procesamiento de video en tiempo real, ChatGPT tendrá un nuevo nivel de modelo multimodal al incorporar información tomada por la cámara.
El Modo de voz avanzado utilizará así la opción ‘Share Screen’ o ‘Compartir pantalla’ para que tanto el usuario como la IA vean lo mismo y puedan charlar sobre eso.
“Las conversaciones con Modo de voz avanzado tendrán un ritmo mucho más natural”, afirmaron desde OpenAI. Como ejemplo, señalan que al abrir la cámara y usarla de forma compartida, la IA podrá indicarle al usuario cómo preparar una comida con los ingredientes que le muestre.
Así, lo que era ciencia ficción hace una década en la película Her, donde el personaje de Joaquin Phoenix se enamoraba de una IA con la voz de Scarlett Johansson, cada día está más cerca de ser una realidad.
Entrenamiento y control
La capacidad de aprendizaje de la IA ha quedado ampliamente demostrada pero no así los controles sobre sus capacidades.
El psicólogo británico Geoffrey Hinton, que también es científico computacional y cognitivo, alertó sobre cómo las metas del desarrollo humano pueden ser distintas a las de las Inteligencias Artificiales: “Nuestros cerebros son el fruto de la evolución y tienen una serie de metas integradas, como no lastimar el cuerpo, de ahí la noción del daño; comer lo suficiente, de ahí el hambre; y hacer tantas copias de nosotros mismos como sea posible, de ahí el deseo sexual. Las inteligencias sintéticas, en cambio, no han evolucionado: las hemos construido. Por lo tanto, no necesariamente vienen con objetivos innatos. Así que la gran pregunta es, ¿podemos asegurarnos de que tengan metas que nos beneficien a nosotros?”
Libertad, horrible libertad
Mientras herramientas de IA como Copilot de Microsoft, Gemini de Google o ChatGPT de OpenAI ponen un freno al uso sin censura de sus servicios, Grok de la red social X funciona, en apariencia, sin límites claros.
Elon Musk, dueño de X, gana por partida doble con el lanzamiento de la herramienta Aurora en Grok. Por un lado adelanta a la competencia al lanzar un servicio gratuito de IA con gran calidad, y por el otro da un paso más en su pregón de “libertad de expresión” como excusa para evitar filtros en su red social.
El uso indiscriminado que hace la herramienta de figuras públicas para que el usuario manipule sus imágenes a gusto es un recurso tan valioso como cuestionable.