A medida que la pandemia se aleja por fin, los viajes internacionales se recuperan, con millones de personas que buscan recuperar el tiempo perdido. Mientras los viajeros exploran tierras extranjeras, herramientas como El sistema de traducción automática neural de Google lanzado en 2016, el software utiliza el aprendizaje profundo para establecer vínculos entre las palabras, averiguando lo estrechamente relacionadas que están, la probabilidad de que aparezcan juntas en una frase y en qué orden.

La herramienta de Google funciona bien cuando el software se comparó con los traductores humanos, se acercó a igualar la fluidez de los humanos para algunos idiomas, pero se limita a las lenguas más habladas del mundo.

Meta quiere ayudar, y está volcando recursos en su propia herramienta de traducción, con el objetivo (entre otros) de hacerla mucho más amplia que la de Google. A papel que la empresa ha publicado esta semana dice que la herramienta de Meta trabaja en más de 40.000 direcciones de traducción diferentes entre 200 idiomas distintos. Una «dirección de traducción» se refiere a traducciones entre pares de idiomas, por ejemplo:

Dirección 1: Inglés > Español
Dirección 2: Español > Inglés
Dirección 3: Español > Swahili
Dirección 4: Swahili > Inglés

40.000 parece mucho, pero si se toman todas las permutaciones de 200 idiomas que se traducen entre sí, se suman bastante rápido. Es difícil determinar con exactitud cuántas lenguas hay en el mundo, pero una estimación fiable se calcula que el total es de más de 6.900. Aunque sería inexacto decir que Meta está construyendo un sistema de traducción universal, se trata de uno de los trabajos más extensos que se han realizado en este campo, sobre todo con lo que la empresa denomina lenguas de bajos recursos.

Se definen como lenguas con menos de un millón de pares de frases traducidas disponibles públicamente. Están compuestas en su mayoría por lenguas africanas e indias que no son habladas por una gran población y no tienen tanta historia escrita como las lenguas comunes.

«Un fenómeno realmente interesante es que las personas que hablan idiomas con pocos recursos suelen tener un listón más bajo en cuanto a la calidad de la traducción porque no tienen ninguna otra herramienta», explica la investigadora de IA de Meta, Angela Fan, que ha trabajado en el proyecto, le dijo a The Verge . “We have this inclusion motivation of, ‘what would it take to produce translation technology that works for everybody’?”

Meta comenzó su investigación entrevistando a hablantes nativos de lenguas de escasos recursos para contextualizar su necesidad de traducción, aunque el equipo señala que la mayoría de los entrevistados eran «inmigrantes que viven en Estados Unidos y Europa, y alrededor de un tercio de ellos se identifican como trabajadores de la tecnología», lo que significa que puede haber cierto sesgo incorporado y una experiencia vital de base diferente a la del grupo más amplio de personas que hablan sus lenguas.

A continuación, el equipo creó modelos destinados a reducir la brecha entre las lenguas de bajos y altos recursos. Para medir el rendimiento del modelo una vez que empezaba a emitir traducciones, el equipo reunió un conjunto de datos de prueba de 3.001 pares de frases para cada idioma cubierto por el modelo. Las frases fueron traducidas del inglés a los idiomas de destino por hablantes nativos de esos idiomas que también son traductores profesionales.

Los investigadores introdujeron las frases en su herramienta de traducción y compararon su resultado con las traducciones humanas mediante una metodología denominada Estudio de Evaluación Bilingüe (BLEU, por sus siglas en inglés). El BLEU es la referencia estándar utilizada para evaluar las traducciones automáticas y proporciona un sistema de puntuación numérica que mide la precisión de los pares de frases. Los investigadores de Meta afirman que su modelo mejoró en un 44% las puntuaciones BLEU en comparación con las herramientas de traducción automática existentes.

Sin embargo, esta cifra debe tomarse con cautela. El lenguaje puede ser muy subjetivo, y una frase puede tener un significado completamente diferente por la diferencia de una sola palabra, o mantener exactamente el mismo significado a pesar de cambiar varias palabras. Los datos con los que se entrena un modelo son los que marcan la diferencia, e incluso eso está sujeto a un sesgo incorporado y a las complejidades del idioma en cuestión.

Otro aspecto diferenciador de la herramienta de Meta es que la empresa decidió abrir su trabajo -incluyendo el modelo, el conjunto de datos de evaluación y el código de entrenamiento- en un intento de democratizar el proyecto y convertirlo en un esfuerzo comunitario global.

«Trabajamos con lingüistas, sociólogos y especialistas en ética». dijo Fan. «Y creo que este tipo de enfoque interdisciplinario se centra en la humano problema. ¿Quién quiere que se construya esta tecnología? ¿Cómo quieren que se construya? ¿Cómo van a utilizarla?».

La herramienta de traducción no es en absoluto un proyecto caritativo, sino que Meta tiene mucho que ganar si es capaz de entender mejor a sus usuarios y su forma de comunicarse y utilizar el lenguaje (los anuncios dirigidos están en todos los idiomas). Además, hacer que las plataformas de la empresa estén disponibles en nuevos idiomas abrirá bases de usuarios aún no explotadas (si es que queda alguna).

Al igual que muchas de las iniciativas de las grandes empresas tecnológicas, el traductor de Meta no debe ser despreciado como un instrumento de poder corporativo ni alabado como un regalo para las masas; ayudará a unir a la gente y a facilitar la comunicación, al tiempo que proporciona al gigante de las redes sociales nuevos conocimientos sobre nuestras vidas y mentes.

Crédito de la imagen: mohamed Hassan de Pixabay