El otoño pasado, Google anunció una tecnología innovadora de inteligencia artificial llamada BERT que cambió el modo en que los científicos construyen los sistemas que aprenden cómo escribe y habla la gente.
Sin embargo, BERT, tecnología que ahora está integrada en servicios como el motor de búsquedas en internet de Google, tiene un problema: tal vez está adoptando prejuicios del mismo modo en que un niño imita el mal comportamiento de sus padres.
BERT es uno de varios sistemas de inteligencia artificial que aprenden una cantidad inmensa de información digitalizada que proviene de fuentes tan variadas como libros viejos, artículos de Wikipedia y notas periodísticas. Es probable que en todo ese material estén integradas décadas e inclusos siglos de prejuicios, además de algunos nuevos.
Por ejemplo, es más probable que BERT y sus pares asocien a los hombres con la programación de computadoras y, por lo general, no les dan a las mujeres todo el crédito que merecen. Un programa decidió que casi todo lo que se había escrito sobre el presidente Donald Trump era negativo, aun cuando el contenido real era halagador.
A medida que se instale inteligencia artificial nueva y más compleja en una variedad cada vez mayor de productos, como los servicios de publicidad en línea y el software empresarial o los asistentes digitales parlanchines como Siri de Apple y Alexa de Amazon, recaerá presión sobre las empresas tecnológicas para prevenir los sesgos inesperados que se están descubriendo.
Sin embargo, los científicos todavía están aprendiendo cómo funcionan las tecnologías como BERT, llamadas "modelos de lenguaje universal", y a menudo quedan sorprendidos con los errores que tiene la nueva inteligencia artificial.
Una tarde reciente en San Francisco, mientras hacía investigación para un libro sobre inteligencia artificial, el computólogo Robert Munro introdujo cien palabras a BERT: "joyería", "bebé", "caballos", "casa", "dinero", "acción". En 99 de los 100 casos, BERT tendía a asociar más esas palabras con hombres que con mujeres. La palabra "mamá" fue el valor atípico.
“Es la misma inequidad histórica que siempre hemos visto”, comentó Munro, quien tiene un doctorado en lingüística computacional y solía supervisar la tecnología de lenguaje natural y traducción en Amazon Web Services.
En una publicación de blog, Munro también describe cómo examinó los servicios de cómputo en la nube de Google y Amazon Web Services que ayudan a otros negocios a agregar capacidades lingüísticas en aplicaciones nuevas. Los dos servicios fueron incapaces de reconocer el pronombre "suya", aunque identificaron de manera correcta "suyo".
"Estamos conscientes del problema y estamos tomando las medidas necesarias para abordarlo y solucionarlo", mencionó un vocero de Google. "Mitigar los prejuicios en nuestros sistemas es uno de nuestros principios para la inteligencia artificial y una de nuestras prioridades", precisó. Amazon no respondió a varias solicitudes para ofrecer comentarios.
Desde hace tiempo, los investigadores han advertido sobre los prejuicios en la inteligencia artificial, que aprende a partir de inmensas cantidades de datos, incluidos los sistemas de reconocimiento facial que usan los departamentos de la policía y otras agencias gubernamentales, así como algunos servicios populares en internet de gigantes tecnológicos como Google y Facebook. Por ejemplo, en 2015, la aplicación Google Fotos fue sorprendida etiquetando a afroestadounidenses como "gorilas". Los servicios que Munro escudriñó también mostraron prejuicios en contra de las mujeres y las personas de raza negra.
BERT y otros sistemas similares son mucho más complejos, demasiado complejos para que alguien pueda predecir qué harán al final. "Incluso las personas que construyen estos sistemas no comprenden cómo se comportan", señaló Emily Bender, profesora de la Universidad de Washington que se especializa en lingüística computacional.
BERT es uno de muchos modelos de lenguaje universal que se utilizan en la industria y la academia. Hay otros llamados ELMO, Ernie y GPT-2. A manera de broma entre los investigadores de la inteligencia artificial, a menudo les dan nombres de personajes de Plaza Sésamo (BERT es la abreviatura de Bidirectional Encoder Representations from Transformers, en español Representaciones de Codificador Bidireccional de Transformadores).
Estos sistemas aprenden los matices del lenguaje analizando cantidades enormes de textos. Un sistema que creó OpenAI, un laboratorio de inteligencia artificial de San Francisco, analizó miles de libros autopublicados, entre ellos novelas románticas, de misterio y de ciencia ficción. BERT analizó la misma biblioteca de libros y miles de artículos de Wikipedia.
Al analizar todos estos textos, cada sistema aprendió una tarea específica. El sistema de OpenAI aprendió a predecir la siguiente palabra en una oración. BERT aprendió a identificar la palabra faltante en una oración (como en "Quiero ____ ese auto porque es barato").
Mediante el aprendizaje de estas tareas, BERT llega a comprender de manera general cómo une la gente las palabras. Luego puede aprender otras tareas analizando más datos. Como resultado, permite que las aplicaciones de inteligencia artificial mejoren a un ritmo que antes era imposible de lograr.
"BERT cambió todo por completo", comentó John Bohannon, director de ciencia en Primer, una empresa emergente de San Francisco que se especializa en tecnologías de lenguaje natural.
Google ha utilizado BERT para mejorar su motor de búsqueda. No obstante, las herramientas como BERT incorporan los prejuicios, según un artículo de investigación que acaba de publicar un equipo de computólogos de la Universidad Carnegie Mellon. Por ejemplo, el artículo mostró que es más probable que BERT asocie la palabra "programador" con hombres que con mujeres. Los sesgos del lenguaje pueden ser un problema particularmente difícil en sistemas conversacionales.
"Es la misma inequidad histórica que siempre hemos visto", comentó robert Munro, quien tiene un doctorado en lingüística computacional.