Aprendizaje automático
De carne, hueso y ego

Ilustración: © Amélie Tourangeau
Ilustración: © Amélie Tourangeau | Ilustración: © Amélie Tourangeau

Una histórica partida de go es quizás la mejor lección que los seres humanos hayan recibido alguna vez de una máquina.

El quinto juego del torneo de go por el título mundial de marzo de 2016 tuvo lugar entre el campeón mundial Lee Sedol y AlphaGo, un programa que había sido desarrollado por DeepMind, empresa londinense de software especializada en inteligencia artificial. Esa partida es quizás la mejor lección que los seres humanos hayan recibido alguna vez de una máquina. Pero no por los motivos que usted acaso suponga.
 
Todo comenzó con una pregunta: ¿cómo se le puede enseñar a la inteligencia artificial a jugar al go, si las combinaciones posibles de este juego milenario son casi infinitas?
 
Aunque puede parecer muy sencillo (la partida la gana el jugador que conquista el territorio más grande), el go tiene, sin embargo, un aspecto casi místico: cualquier jugado puede hacer avanzar los límites del conocimiento sobre el juego. Por eso es imposible crear, con un algoritmo para todas las combinaciones ganadoras, un jugador de go artificial que sea imbatible. Para vencer al mejor jugador del mundo (al igual que la inteligencia artificial, el go es un territorio predominantemente masculino) el software debe estar en condiciones de aprender de modo autónomo.

Miles de errores

El aprendizaje automático, desarrollado por primera vez a comienzos de los años cincuenta del siglo pasado, es un campo de investigación que se puso como objetivo el desarrollo de herramientas con las que se les puede enseñar a las máquinas a aprender por sí mismas. En el centro de los complejísimos sistemas que hicieron posible el desarrollo de este campo de investigación se encuentra un método más bien básico: prueba y error. Dicho de modo sencillo, la máquina observa qué decisiones la llevan más cerca del objetivo y qué decisiones la perjudican. A partir de miles de pruebas y errores, el algoritmo “aprende” a tomar las decisiones correctas en función del objetivo inicial.
 
Con reglas claras y un objetivo bien definido (ganar la partida), los juegos son un terreno privilegiado para la investigación en aprendizaje automático. Hacen que resulte fácil medir el rendimiento y el avance del software.

Para imponerse al surcoreano Lee Sedol, la máquina AlphaGo primero analizó miles de juegos entre jugadores de nivel más bien medio. Por otro lado, los programadores introdujeron en el sistema las reglas del juego. Estos datos de partida le permitieron al algoritmo aprender a jugar al go y a identificar las combinaciones más usuales con sus respectivas probabilidades de éxito.

La fase siguiente de AlphaGo fue una etapa de aprendizaje “por refuerzo”. El programa jugó miles de juegos contra sí mismo cambiando cada vez ligeramente de estrategia, unas veces con éxito, otras sin él. Puede decirse que fue después de una serie de derrotas que AlphaGo pudo salir de la liga de principiantes para batirse con el mejor jugador del mundo.

Jugar por jugar

Lo que pasó es conocido: Lee Sedol perdió todos los juegos menos uno. Pero ahora AlphaGo tiene el aspecto de una cosa anticuada si se la compara con AlphaZero, la nueva estrella de DeepMind. Este programa, lanzado en 2017, puede ganar al go, al ajedrez y al shogi sin que un humano le haya enseñado las reglas. Ahora bien, el cuarto y el quinto juego del torneo de go entre AlphaGo y el campeón mundial Sedol pueden enseñarnos mucho sobre la fuerza simbólica del aprendizaje automático.
 
Por la mañana del cuarto día –el torneo consistía en cinco juegos en cinco días–, cuando las cámaras se encendieron, la suerte ya estaba echada. Pues el día anterior, al caer en la tercera partida, Lee Sedol había perdido el campeonato. Ese cuarto día se presentó, por fin, con gesto sereno. Resignado a la idea de haber perdido contra una máquina, de ahí en adelante pudo jugar por jugar. Contra todo lo que se esperaba, ganó la partida tras haber desconcertado a AlphaGo con una de sus jugadas creativas cuyo secreto él posee (según los pronósticos del algoritmo, sólo una de entre diez mil personas hubiera elegido ese famoso movimiento número 78 que demostró ser decisivo). Corea del Sur celebró de inmediato ante los flashes de las cámaras. Sin importar lo que ocurriera al día siguiente, el honor de la humanidad estaba a salvo.
                     
Al día siguiente, la esperanza febril de que Sedol pudiera vengarse otra vez de la máquina no dejó de crecer y la tensión aumentó considerablemente. La partida comenzó y, en efecto, parecía que ocurriría lo imposible. En vivo se pudo ver cómo la máquina, al parecer, se desmoronaba. Todos los analistas estaban de acuerdo: AlphaGo estaba acumulando errores a lo largo del juego y tomando decisiones muy extrañas. Hasta se oyeron algunas risas aquí y allá.
 
Lo que después ocurrió ante los ojos de los atónitos espectadores fue un juego de go como nunca antes había jugado ser humano alguno. Un especialista dijo más tarde que ese juego le había agregado a los nueve dan (los niveles de graduación del go) uno décimo. Después de 280 movimientos, ganó el programa de computadora, que no conoce la vergüenza ni el rechazo ni el ridículo. Sedol, al igual todos los espectadores, quedó impresionado por las capacidades del software. Al parecer, había aprendido la lección a partir del extraño movimiento número 78 del día anterior.
 
Ningún jugador de carne, hueso y ego se habría atrevido a hacer esos movimientos disparatados que hizo AlphaGo en ese quinto juego: lo habrían transformado en un demente a los ojos de miles de espectadores. AlphaGo, por el contrario, sólo sabía pruebas y errores.