As máquinas aprenden soas a coordinarse contra o seu inimigo

Cada poucos meses anúnciase un novo logro no campo da intelixencia artificial. Novos fitos que mostran o músculo que está a desenvolver este campo de investigación, financiado en boa medida por empresas privadas. Son retos vistosos, como cando se fan invencibles en taboleiros familiares e xogos populares. Pero tamén son vitorias que invitan a reflexións máis profundas ao analizar o que supoñen. Non é só que a máquina logre gañar, é que é capaz de “intuír” como facelo. Non é que venza aprendendo de cero, é que se ensina a si mesma desprezando os coñecementos milenarios dos humanos. Hoxe, as máquinas soben outro chanzo que dá que pensar: xa son capaces de coordinarse, sen coñecerse nin falar entre elas, para lograr os seus obxectivos.

Pero tamén demostraron que poden facer equipo cos humanos para facernos máis eficientes, que é a perspectiva boa. Todo isto, nun popular videoxogo de combate como campo de probas. O fito, en resumo, é este: Google desenvolveu unha intelixencia artificial que se desenvolve nun videoxogo de tiroteos mellor que un humano, ao ser capaz de coordinarse con compañeiros de equipo ata desenvolver estratexias que o leven á vitoria. Neste xogo, o Quake III Area (Q3A), os xogadores teñen que roubar a bandeira do inimigo e levala á súa base, mentres protexen a súa propia, disparando un láser contra eles.

“O que fai que estes resultados sexan tan emocionantes é que estes axentes perciben o seu ámbito dende a perspectiva de primeira persoa, tal como o faría un xogador humano”, di Thore Graepel, científico de DeepMind e a University College de Londres. “Para aprender a xogar tacticamente e colaborar cos seus compañeiros de equipo, estes axentes deben confiar na información que reciben dos resultados do xogo, sen que ninguén lles mostre que facer,”, engade Graepel en declaracións facilitadas por DeepMind, a división de intelixencia artificial do xigante tecnolóxico. As máquinas non saben o que sucede en todo momento nin o que esperar, como noutros xogos: o mundo é cambiante e imprevisible, por momentos non ven o rival e non saben que consecuencias terán as súas decisións.

En lugar de adestrar cun único xogador-máquina, os investigadores usaron un equipo de 30 axentes (así os chaman) que tiñan que aprender de cero toda a mecánica do xogo, unicamente vendo o mesmo que vería un xogador humano e tras coñecer se o resultado da partida é derrota ou vitoria. Deste modo, mediante a aprendizaxe por reforzo, os 30 axentes descobren mediante ensaio e erro o que necesitan para gañar, sen coñecer as regras e sen que ninguén os guíe ou lles mostre exemplos. Ao xogar entre si, ao longo de 450.000 partidas en paralelo, cada un destes axentes desenvolveu a súa propia forma de xogar.

DeepMind programáraos para que xerasen os seus propios sinais de recompensa: algúns sentíanse máis motivados a matar o inimigo (ao dispararlles e así devolvelos á súa base), outros a capturar bandeiras, etc., o que produciu un abano amplo de xogadores con distintas habilidades e técnicas. Ademais, o software propicia que os axentes actúen en dúas velocidades, polo que poden disparar coa adrenalina do enfrontamento inmediato, pero tamén planificar movementos no longo prazo para unha mellor estratexia. DeepMind, que publica agora os detalles do seu logro na revista Science, chamounos FTW (siglas de for the win, para a vitoria en inglés).

O mellor amigo dos humanos

Non obstante, o máis complicado non era que estes FTW lograsen converterse en gañadores, senón que fosen capaces de coordinarse con outros axentes do seu equipo, mesmo con humanos, cos que non interactúan máis que movéndose dentro do terreo de xogo. “Os humanos actúan e pensan individualmente, pero tamén son capaces de unirse por medio de equipos, organizacións e sociedades en impresionantes demostracións de intelixencia colectiva,” indica Max Jaderberg, de DeepMind.

A medida que se complican os retos para a intelixencia artificial, en Google son conscientes de que requirirán que as máquinas poidan traballar en equipo. “Polo tanto”, engade Jaderberg, “é importante comprender mellor estas interaccións e os métodos e técnicas subxacentes que as facilitan”.

Intuitivamente, as máquinas aprenderon as estratexias habituais dos humanos. Tras unhas catro mil partidas, decatáronse de que era unha boa idea facer garda na base inimiga. Despois dunhas cincuenta mil partidas, cando xa eran capaces de gañar a humanos, os axentes aprenderon a seguir ao seu compañeiro de equipo no asalto, outro comportamento común en xogadores de carne e óso. Pero a partir das duascentas mil partidas comezaron a desbotar esa táctica, substituíndoa por formas máis complementarias de colaboración.

Esta evolución deuse cada vez que as máquinas se propuxeron facerse invencibles, como se viu no Go ou o xadrez. Primeiro descobren de forma autónoma as xogadas gañadoras depuradas durante centos de anos polos mellores cerebros humanos, para máis adiante abandonalas ao inventar mellores tácticas. Como se as máquinas desentrañasen os segredos internos destes desafíos intelectuais, como se accedesen a unhas claves que se lle resistiron a miles de xogadores humanos ao longo da historia. “É asombroso ver como os axentes aprenden a colaborar e xogar a cotas humanas, desenvolvendo tácticas e estratexias similares ás dos xogadores humanos, só a partir desa pequena información e un algoritmo capaz de aprender de principio a fin,” asegura Jaderberg.

A proba final chegou cando DeepMind puxo os seus axentes a competir nun torneo xunto a 40 humanos, en formacións aleatorias de xogadores de silicio e de carne. As FTW arrasan os gamers, pero hai unha posibilidade para os humanos. “Só como parte dun equipo de axente-humano [mixto] observamos a un humano gañando a un equipo axente-axente”, explica DeepMind no seu estudo de Science. Iso si, con tan só un 5% de probabilidade de gañar.

“Este resultado suxire que os axentes adestrados son capaces de cooperar con compañeiros de equipo descoñecidos, como os humanos”, engade o estudo. É máis, nunha enquisa realizada posteriormente, os xogadores puntuaron os axentes como máis cooperativos que aos humanos. Non só enténdense entre elas: as máquinas poden coordinarse cun humano para levalo á vitoria. E ese é precisamente o máis nobre obxectivo dos defensores do futuro da intelixencia artificial: a súa capacidade de impulsar os humanos máis alá.

(Fonte: El País)