Compartir

La puntuación perfecta en el arcade Ms. Pac-Man no la ha conseguido un humano, la ha logrado la Inteligencia Artificial creada por el equipo de aprendizaje profundo Maluuba que compró Microsoft en enero de este año. La IA ha conseguido la puntuación máxima que se puede lograr en este juego usando una combinación única de aprendizaje con refuerzos junto con el método divide y vencerás.

Los desarrolladores de esta IA tienen predilección por usar videojuegos para probar maquinas que autoaprenden, desde simulaciones del caos en un mundo real hasta un entorno controlado como son los juegos de ajedrez. En 2015 la IA DeepMind de Google fue capaz de aprender cómo jugar 49 juegos de Atari gracias a feedback positivos o negativos cada vez que intentaba resolver un problema.

Aunque las IA habían conquistado una gran cantidad de juegos retro, Ms. Pac-man no era uno de ellos, debido a la impredictibilidad intencional del juego. Por lo que también era un juego duro para los humanos. Muchas personas intentaron alcanzar la puntuación máxima del juego, siendo 266.330 la más alta sin usar trampas.

Maluuba fue capaz de usar una IA para derrotar al juego al asignar responsabilidades, dividiéndolo en 150 procesos. El equipo entonces le enseñó a la IA a usar lo que llaman la Arquitectura de Recompensa Híbrida, una combinación de aprendizaje con refuerzos y el método de divide y vencerás. A estos procesos se les asignaron poco a poco tareas, los cuales trabajaban en tándem con otros procesos para conseguir mayores logros. Maluuba diseñó entonces un proceso superior que cogía todas las sugerencias de los otros procesos para decidir a dónde mover a Ms. Pac-Man.

Ms pac-man

Los mejores resultados aparecieron cuando los procesos individuales actuaban de forma egoísta y el proceso superior tenía que centrarse en qué era lo mejor para todo el conjunto, tomando en cuenta no sólo el número de cuantos procesos querían ir en una dirección, si no también la importancia de esa dirección. Maluuma dice que esta versión de la Arquitectura de Recompensa Híbrida para el aprendizaje de las IA tiene mayores y aplicaciones prácticas, como ayudar a predecir las ventas de una empresa o hacer progresos en el procesamiento natural del lenguaje.