O novo “google translate” da UE ten selo español

A súa aposta pioneira pola tradución estatística posicionou a Pangeanic como un aliado imprescindible para as multinacionais nipoas como Toshiba, Honda, Sony e Panasonic. O know how desta empresa española foi tecendo unha rede que se movía entre contratistas de Defensa de EEUU ata Rolls-Royce e Samsung ou protagonistas do Nasdaq como Veritone.

Pronto o equipo detectou o enorme potencial da intelixencia artificial no seu complexo campo de coñecemento. Hoxe, ese traballo vese recompensado coa adxudicación dun gran proxecto comunitario. A compañía, con sede en Valencia, é a responsable de desenvolver o ‘Google Translate da Unión Europea.

O gran salto de Pangeanic produciuse en 2016 cando se decatou de que “algo estaba empezando a cambiar”. A empresa traballaba con tradución baseada en estatística, moi superior aos sistemas tradicionais baseados en regras. “Funcionaba relativamente ben para idiomas próximos, aínda que non tanto cando existían diferenzas lingüísticas”, recorda o seu CEO, Manuel Herranz. Pero entón sucedeu que NVIDIA democratizou as GPU. “Por primeira vez, as redes neuronais tiñan unha autoestrada para funcionar”. Este salto supoñía reducir as tarefas de procesamento e adestramento de tres meses a tres semanas.

Naquel momento, a empresa española decidiu crear un programa de recompilación de datos, xa que se hai algo que necesita esta tecnoloxía é información de calidade. “Se o sistema estatístico funciona cun par de millóns de frases, o de redes neuronais require máis do triplo”. Así, foron creando a súa base de datos que hoxe supera as 3000 millóns de frases “perfectamente aliñadas”.

¿Vantaxes da intelixencia artificial na tradución? “As redes neuronais intentan imitar os humanos”. Isto significa que tamén teñen en conta o contexto. “Non traducen palabra a palabra, senón sílaba a sílaba e mesmo letra a letra”, apunta. Resultado: cae a porcentaxe de erro.

Ademais da súa base de datos, Pangeanic necesitaba algoritmos. Para iso recorreu ás librerías libres dispoñibles e adaptounas ás súas necesidades. E con todo iso creou un know how único que non só serve para a tradución, senón que pode sumarizar, ou clasificar.

Un proxecto de dous millóns de euros

Dende 2017, o traballo da valenciana está a resolver necesidades da Comisión Europea. Agora acaba de coñecer cal será o seu último gran desafío: o desenvolvemento dun ‘Google Translate’ para a Unión Europea. Para iso, recibiu un proxecto Connecting Europe Facility (CEF) dotado de dous millóns de euros. O obxectivo é desenvolver 420 motores de tradución que recollan todas as combinacións entre os 24 idiomas oficiais. Cada un terá unha base de 15 millóns de frases traducidas. Despois, tres universidades certificarán que os resultados non perden máis do 5% de calidade. Unha esixencia que a Herranz non lle preocupa. “No sector privado, xa estamos a traducir igual ou mellor que Google”.

A idea é que esta tecnoloxía permita á Comisión Europea transmitir información aos estados membros e viceversa. Tamén haberá unha copia dos motores que será pública, de código aberto, que cada Goberno poderá utilizar ao seu antollo.

A vantaxe de Pangeanic fronte ás grandes tecnolóxicas como Google ou Microsoft é que a súa tecnoloxía é lineal. “Cando outros sistemas traducen dun idioma a outro, pasan por un intermedio do que teñen máis datos, que adoita ser o inglés”, explica o CEO. «Pero prodúcese unha perda porque non vas en liña recta. Eles eliminan ese paso e fan a tradución directa.

O seu gran reto é a xeración de datos. Aínda que a empresa española conta coa súa propia base e a da Unión Europea, necesitará 15 millóns de frases para todas as combinacións, mesmo para as menos frecuentes. E, ademais, esas oracións terán que tratar de política, economía e xustiza, que son os temas relevantes para a Comisión.

¿Como poden obter todos eses datos? Existen datos xa xerados e outros que se poden xerar… sinteticamente. As redes neuronais de Pangeanic son capaces de crear frases sen erros de forma artificial. Ademais, achegan calidade sobre os xerados polas persoas: son máis fiables, escalables e conteñen menos ruído. De feito, a metade dos 3000 millóns de frases de Pangeanic son sintéticas. Aínda que o proxecto empezará en setembro durará dous anos, a empresa irá publicando os motores segundo vaia desenvolvéndoos.

(Fonte: La Razón)