NTEU - Neural Translation for the EU

13/09/2019

NTEU, el nuevo proyecto de Traducción Automática que aborda el reto de traducir entre todas las lenguas europeas

Con la reunión de inicio que tuvo lugar el 26 y 27 de agosto en Valencia, ha empezado su andadura el nuevo proyecto financiado por el mecanismo “Conectar Europa” en el que participa la SEAD, como parte de la estrategia del Plan TL de implantar la Traducción Automática en la Administración Pública.

Se trata de Neural Translation for the EU (NTEU) , que recibirá alrededor de dos millones de euros, para desarrollar más de 400 motores de traducción automática distintos en un plazo de dos años. La intención es conseguir traducir automáticamente entre todas las lenguas oficiales de la Unión Europea.

Los motores de traducción automática se implementarán siguiendo las técnicas más punteras de inteligencia artificial, que incluyen entrenamiento de redes neuronales profundas sobre grandes conjuntos de datos bilingües. Cada uno necesitará una base mínima de entrenamiento de 15 millones de frases traducidas.

Las tres empresas encargadas del desarrollo son la valenciana Pangeanic, la irlandesa  Kantan MT y la letona Tilde. La Oficina Técnica General del Plan TL, que ya ha colaborado con estas empresas en anteriores proyectos, coordinará la evaluación de los resultados, que serán posteriormente validados por tres universidades distintas.

El interés de la Comisión Europea en este proyecto reside en su objetivo de ampliar la cobertura del actual sistema eTranslation, promovido por la propia Comisión, que actualmente sólo traduce desde y hacia el inglés. Las tecnologías de la traducción suponen una herramienta clave en la estrategia europea de crear un mercado único digital por encima de barreras lingüísticas.

El proyecto NTEU tiene el ambicioso propósito de construir motores de traducción directa entre todas las lenguas europeas, sin necesidad de pasar a través de una tercera (generalmente el inglés) que funciona como pivot.

Dada la gran dependencia que esta tecnología tiene de los datos el gran reto consistirá en conseguir corpus de entrenamiento de suficiente calidad y cantidad para entrenar los distintos motores, tanto bilingües como monolingües. Para completar los pares de lenguas con menor cantidad de datos iniciales, se prevé utilizar técnicas de generación automática de textos usando redes neuronales multicapa de última generación.