DeepMind, la compañía de inteligencia artificial que pertenece a Google, ha revelado cómo creó un algoritmo computacional que puede aprender a jugar 49 juegos de maquinitas, incluyendo Pong y Space Invaders, ambos clásicos de la década de 1970. En más de la mitad de esos juegos, la computadora adquirió la suficiente habilidad para derrotar a un jugador humano profesional.
El algoritmo, que ha generado conmoción desde la publicación de una versión preliminar en 2013, es el primer sistema de inteligencia artificial (IA), que puede aprender una variedad de tareas desde cero, partiendo únicamente de la misma información mínima.
“El hecho de que se tenga un sistema que puede aprender varios juegos, sin ningún ajuste entre partida y partida es sorprendente y muy impresionante”, dice Nathan Sprague, científico especializado en aprendizaje de máquinas de la Universidad James Madison, en Harrisonburg, Virginia.
DeepMind, basada en Londres, dice que el sistema, inspirado en el cerebro, también podría aportar ideas sobre la inteligencia humana. “Los neurocientíficos están estudiando la inteligencia y la toma de decisiones, y esto es un banco de pruebas bastante limpio para esas ideas”, dice Demis Hassabis, cofundador de DeepMind. Tanto él como sus colegas describen el algoritmo de juego en un documento de investigación.
Los juegos son para los investigadores de IA lo que las moscas de la fruta son para la biología: un sistema minimalista donde se pueden probar teorías, dice Richard Sutton, un científico computacional que estudia aprendizaje por refuerzo en la Universidad de Alberta, en Edmonton, Canadá.
“Entender la mente es un problema increíblemente difícil, pero los juegos permiten dividirlo en partes que se pueden estudiar”, señala. Pero, hasta el momento, la mayoría de las computadoras que vencen a los humanos (como Deep Blue, de IBM, que en 1997 derrotó al campeón mundial de ajedrez Garry Kasparov, y el recientemente develado algoritmo que juega el póquer “Texas Hold 'Em” de forma esencialmente perfecta) sólo destacan en un juego. La versatilidad de DeepMind viene de unir dos tipos de aprendizaje de máquinas, logro que según Sutton es “muy importante”.
El primero, llamado aprendizaje profundo, usa una arquitectura inspirada en el cerebro, donde conexiones entre capas de neuronas simuladas son reforzadas sobre la base de la experiencia. Los sistemas de aprendizaje profundo posteriormente pueden sacar información compleja de montañas de datos no estructurados. Google, de Mountain View, California, usa este tipo de algoritmos para clasificar fotografías automáticamente y apunta a usarlos para traducción en computadoras.
El segundo tipo es el aprendizaje por refuerzo, un sistema de toma de decisiones inspirado en el sistema de recompensas del neurotransmisor dopamina del cerebro animal. Usando únicamente como insumos los píxeles de la pantalla y la puntuación del juego, el algoritmo aprendió con prueba y error qué acciones (como ir a la izquierda, a la derecha o disparar) tomar en un momento dado para obtener las recompensas más altas. Luego de pasar varias horas con cada juego, dominó una gama de juegos de maquinitas clásicos, incluyendo coches de carreras, boxeo y Space Invaders.
Compañías como Google tienen un interés comercial íntimo en mejorar la IA, señala Sutton. Las aplicaciones podrían incluir cuál es la mejor forma de colocar publicidad en internet o cómo priorizar artículos en los agregadores de noticias, indica. Sprague, mientras tanto, sugiere que la técnica podría posibilitar que los robots resuelvan problemas al interactuar con sus ambientes.
Pero un motor importante es la ciencia en sí misma, dice Hassabis, porque armar sistemas más inteligentes significa ganar mayor entendimiento de la inteligencia. Muchos del área de neurociencia computacional coinciden con esto. Sprague, quien ha creado su propia versión del algoritmo de DeepMind, explica que mientras que la IA es en gran parte irrelevante para la neurociencia a nivel de conexiones anatómicas entre neuronas, puede aportar conocimientos en el nivel más alto de los principios computacionales.
Ilya Kuzovkin, científico computacional de la Universidad de Tartu, en Estonia, que forma parte de un equipo que desde 2013 ha estado aplicando ingeniería inversa al código de DeepMind, dice: “Los trucos que usamos para enseñar a un sistema no son biológicamente realistas.
Pero comparar ambos podría llevar a nuevas ideas sobre el cerebro”. Es probable que emane un impulso particular de la decisión del equipo de DeepMind de publicar su código junto con su investigación, considera Kuzovkin, porque su laboratorio y otros ahora pueden basarse en los resultados. “También demuestra que la investigación financiada por la industria va en el camino correcto: comparten con la academia”, agrega.
DeepMind fue comprada por Google en 2014 por un monto informado de 400 millones de libras esterlinas (617 millones de dólares), y ha estado robándose a los principales científicos computacionales y neurocientíficos de la academia, creciendo de 80 a 140 investigadores hasta el momento.
Otra vez, es probable que sus próximos pasos sean influenciados por la neurociencia. Un proyecto podría consistir en incorporar memoria a su algoritmo, permitiendo que el sistema transfiera su aprendizaje a nuevas tareas.
Al contrario de los humanos, cuando el sistema actual domina un juego, no mejora al abordar el siguiente. Otro reto es imitar la forma del cerebro de dividir los problemas en tareas más chicas. Actualmente, al sistema de DeepMind se le dificulta vincular acciones con consecuencias lejanas, limitación que, por ejemplo, le impidió dominar juegos de laberintos como Ms. Pac-Man.