La fe depositada en las soluciones que puede aportar a la vida cotidiana la Inteligencia Artificial generativa nos lleva a ignorar que no todo lo que nos dice puede estar ajustado a la verdad.
Estos errores que comete las IA al dar respuesta se llaman “alucinaciones” y son el fruto de una premisa básica con la que se manejan: nunca decir que no saben algo.
Qué son los alucinaciones de la IA
Las alucinaciones de la inteligencia artificial (IA) “son resultados erróneos, incoherentes o sin sentido que genera un modelo de IA”. Esto no lo decimos nosotros, sino la propia IA al preguntarle por el concepto.
¿Por qué sucede esto? Según Omar Florez, ingeniero de sistemas de la Universidad Nacional de San Agustín de Arequipa, Perú, y PhD en inteligencia artificial por la Universidad de Utah, en Estados Unidos, esto pasa debido a que “el algoritmo está priorizando la coherencia por encima del contenido”.
Florez, en declaraciones a Infobae Perú, agrega además: “Cuando se trata de un tema muy específico, se dispone de una base de datos muy limitada. Por ende, el algoritmo hace lo mejor que puede para llenar esos vacíos de información, de modo que pueda predecir palabra por palabra y hacer oraciones coherentes. Es decir, está alucinando”.
En otras palabras, datos insuficientes, suposiciones incorrectas, sesgos en datos de entrenamiento o falta de fundamentación adecuada terminan influyendo en la precisión de una respuesta.
Pequeñas mentiras, grandes problemas
Los expertos denuncian que el gran problema de las alucinaciones de la IA no reside tanto en sus respuestas sino más bien en su desarrollo.
El informe “The Bias RemAIns” (Los Sesgos Permanecen) indica que muchos de los resultados en plataformas de IA generativa tienden a ignorar a mujeres o a personas de color cuando se les pide crear imágenes de líderes del futuro o conquistadores espaciales.
Su conclusión fue que en los entrenamientos de los modelos de lenguaje no había participación femenina o de personas de varias nacionalidades, por lo que la información aportada a la IA venía de un grupo homogéneo de hombres blancos que no contemplaba la diversidad como opción.
Más allá de estos casos extremos, muchos usuarios pueden notar cuando una respuesta de la IA quizá no es precisa.
En temas como medicina o inversiones financieras se sabe que no se puede confiar al 100% en las respuestas, pero en otros ámbitos, como las noticias, la “alucinación” de la IA pasa más desapercibida.
El ejemplo más reciente involucra a Apple que ha tenido que desactivar los resúmenes de noticias que realiza su IA, llamada Apple Intelligence, tras quejas de grandes medios por sus groseras imprecisiones.
La IA de Apple creó titulares falsos en base a informaciones de la BBC, The New York Times o The Washington Post que afirmaban, por ejemplo, que Luigi Mangione, acusado del asesinato del CEO de UnitedHealthcare, se había quitado la vida o que el primer ministro de Israel, Benjamin Netanyahu, había sido arrestado.
Un portavoz de la BBC dijo a la cadena CNN: “Es crucial que Apple aborde urgentemente estos problemas, ya que la precisión de nuestras noticias es esencial para mantener la confianza. Estos resúmenes de IA de Apple no reflejan, y en algunos casos contradicen completamente, el contenido original de la BBC”.
Soluciones posibles
Aunque se le puede pedir a los usuarios que no crean ciegamente en las respuestas de la IA y contrasten informaciones cuando las búsquedas sean de temas relevantes, la mayor parte del trabajo de mejora recae en los desarrolladores de los modelos que utilizamos.
Mejorar la calidad de los datos de entrenamiento, evitar sesgos sociales, implementar regulaciones y ajustar la arquitectura de cada plataforma son las soluciones más evidentes.
Según investigaciones recientes -como las de arXiv.org o Anthropic-, los modelos conversacionales como GPT-3.5 y GPT-4 pueden tener tasas de alucinación en tareas específicas del 15% al 25%, dependiendo del tipo de pregunta y la claridad de los datos disponibles. Sin embargo, este rango puede variar si el modelo está ajustado para tareas altamente especializadas.
Las empresas detrás de cada desarrollo, como OpenAI y Gemini de Google, miden los errores durante pruebas internas y con usuarios externos, pero no siempre publican cifras exactas, ya que la tasa puede diferir ampliamente en función de los contextos.
“Los modelos son entrenados con grandes (muy grandes) volúmenes de información, y de allí aprenden patrones y asociaciones con esa información que puede aun ser insuficiente, obsoleta o inconsistente, y dado que no tienen ‘comprensión’, realmente no saben lo que están diciendo”, explicó Pablo Velan, CTO y socio de N5, empresa de software especializada en la industria financiera, en declaraciones a Clarín.
Un informe de Vectara clasificó los 15 principales modelos de lenguaje de IA con las tasas de alucinaciones más bajas y sus resultados mostraron que algunos desarrollos pequeños podían dar resultados muy precisos a pesar de no ser poderosos.
La lista la encabeza el desarrollo chino Zhipu AI GLM-4-9B-Chat y Gemini 2.0, de Google, ambas con una tasa de alucinaciones de solo 1,3%.
Google, además, aporta otra herramienta a prueba de alusiones y se llama Notebook LM. Se trata de un desarrollo que no busca información en internet sino que se alimenta de textos, fotos, videos y documentos que le aporta el usuario.
Alucinación: sí o no
Aunque el concepto se ha unificado para referirse a los resultados erróneos de la IA, desde algunos ámbitos cuestionan que se use el término para esta definición.
Desde la Salud no se muestran a favor de asociar el concepto a los errores de la IA debido a su posible asociación estigmatizante con problemas de salud mental como la esquizofrenia.
En un artículo publicado en Universo Abierto, el blog de la biblioteca de Traducción y Documentación de la Universidad de Salamanca, señalan que “para abordar estas preocupaciones, se sugiere establecer terminologías consistentes y definiciones formales de ‘alucinación’ en el contexto de la IA. Esto promovería la claridad y coherencia en las discusiones y mitigaría la confusión y ambigüedad en su aplicación interdisciplinaria”.
Mentime y llamame Marta
La potencialidad de la IA es enorme pero hay que enfrentar la realidad: la mayoría la usamos como mero entretenimiento o para resolver problemas básicos que no queremos hacer por pura vagancia.
Aún estamos lejos de que un modelo de lenguaje sea la herramienta perfecta para realizar nuestras tareas profesionales o resolver nuestros problemas personales. Por eso, una alucinación de la IA no sólo no es percibida como una alerta roja sino más bien como un divertimento al ver cómo pifia en una respuesta.
Basta un pequeño recorrido por redes sociales para ver cómo muchos la usan para crear memes o pedir consejos para actividades ilegales apelando a la porosidad de su código de ética.
En estos casos la mentira es una calle de dos manos, en la que por un lado el usuario espera una respuesta delirante de la IA y, por el otro, un modelo de lenguaje que “sabe” que hay un humano intentando desafiarlo.