Traducción humana o automática: la clave está en comparar documentos, no frases

¡Valóralo!
Índice de Contenido

El debate entre el traductor profesional y la traducción automática se remonta a la década de 1950 y es tan fascinante como agotador.

El rápido progreso de la traducción automática neural en los últimos dos años ha hecho resurgir el debate, llevando incluso a grandes empresas tecnológicas como Microsoft a publicar artículos de investigación con títulos atrevidos (si no engañosos) como «Lograr la paridad humana en la traducción automática de noticias del chino al inglés».

Es cierto que los autores de Microsoft moderaron sus afirmaciones. Según su artículo, la paridad humana se consigue «si no hay una diferencia estadísticamente significativa entre las puntuaciones de calidad humana para un conjunto de prueba de traducciones candidatas de un sistema de traducción automática y las puntuaciones de las correspondientes traducciones humanas».

En otras palabras, si un evaluador humano bilingüe juzga la calidad de las traducciones humanas y automáticas como iguales (la diferencia en las puntuaciones es estadísticamente insignificante), «entonces la máquina ha logrado la paridad humana».

¿Es igual la traducción automática que la humana?

En un artículo titulado «¿Ha alcanzado la traducción automática la paridad humana?  Un caso de evaluación a través del documento», los investigadores de universidades alemanas, Laubli, Sennrich y Volk, sostienen que los estudios sobre esta cuestión no se han abordado desde un ángulo adecuado, ya que la investigación debería centrarse en el contexto a escala documento en lugar de comparar los resultados a través de las frases.

Los autores utilizaron traductores humanos profesionales para evaluar el rendimiento del motor NMT (Traducción Automática Neuronal) utilizado por Microsoft en la tarea de noticias de chino a inglés de la Conferencia sobre Traducción Automática (WMT) de 2017.

Además, también utilizaron la clasificación por pares (comparación lado a lado de la traducción humana frente a la automática), a la vez que tuvieron en cuenta el contexto desde el punto de vista de documento a la hora de calibrar tanto la adecuación como la fluidez de la traducción.

La afirmación de Microsoft sobre la paridad humana, según su definición, se sostenía, pero solo porque utilizaban las normas actuales de investigación de la MT (Machine Translation), que, según el artículo de Läubli, se han vuelto inadecuados para evaluar eficazmente la NMT.

Volk corrigió algunos problemas de la evaluación utilizada en el documento de investigación de Microsoft.

«Conociendo los puntos fuertes y débiles de la NMT, no podíamos imaginar que el sistema [de Microsoft] hubiera alcanzado realmente la calidad de los traductores humanos profesionales», señaló Läubli.

Explicó que Microsoft siguió las normas de investigación actuales en su metodología, en la que normalmente, «los calificadores ven frases sueltas -una por una, de cualquiera de los documentos de prueba, en orden aleatorio- y califican su adecuación y fluidez en una escala de 0 a 100».

Sin embargo, en este proceso, Läubli dijo que a los evaluadores les resultaba «imposible» observar ciertos errores de traducción, por lo que no podían tenerlos en cuenta adecuadamente.

Los resultados de la investigación de Läubli, Sennrich y Volk señalan algunos puntos interesantes

Uno de los principales hallazgos fue que los traductores humanos profesionales prefirieron con creces las traducciones humanas en comparación con los resultados de la NMT cuando se les proporcionó el contexto de todo el documento y no solo frases sueltas.

Además, los mismos evaluadores profesionales preferían la fluidez de las traducciones humanas.  Sin embargo, no hubo una preferencia estadísticamente significativa en ninguno de los dos sentidos cuando se trató de la adecuación de las frases.

El contexto desde el punto de vista de documento es actualmente una prioridad para la investigación de la NMT. Es uno de los próximos grandes problemas, tal y como se informa en el informe de Slator sobre la NMT de 2018 y lo destacan los expertos en la materia entrevistados, entre los que se encuentran Läubli y Sennrich.

Limitaciones del proceso de Microsoft

  • Los evaluadores eran bilingües, no necesariamente traductores profesionales.
  • Los evaluadores solo evaluaron la adecuación, no la fluidez.
  • Los evaluadores «nunca compararon directamente la traducción humana con la automática». Las examinaron por separado y asignaron puntuaciones.

 

En cambio, para abordar el problema de la comparación directa, Läubli señaló que en su estudio «utilizamos la clasificación por pares en nuestros experimentos.  Los calificadores siempre veían la traducción humana y la automática de un determinado texto fuente al mismo tiempo, y elegían la mejor de las dos».

Microsoft solo siguió las normas actuales de investigación de la MT

Como se ha dicho líneas arriba, los investigadores alemanes son conscientes de que Microsoft empleó el mismo procedimiento que sigue la comunidad de la MT.

«Microsoft no tiene la culpa de la evaluación de su sistema.  Siguió la «mejor práctica» de la comunidad basada en la evaluación de frases, no de documentos completos, y nosotros sostenemos que la MT ha alcanzado un nivel de calidad en el que esta «mejor práctica» debe cambiar: deberíamos utilizar documentos completos para juzgar la calidad de la MT», dijo.

De hecho, en la conclusión de su artículo, los autores escribieron que «si aceptamos nuestra interpretación de que la traducción humana es efectivamente de mayor calidad en el conjunto de datos que probamos, esto apunta a un fallo de las mejores prácticas actuales en la evaluación de la traducción automática».

Sin embargo, Laubi sostiene que el equipo de Microsoft podría haber empleado la denominación un poco mejor.  «El título de su artículo era un poco aventurado», dijo, «debería haber dicho algo así como: Los no profesionales bilingües dan puntuaciones similares a las frases aisladas producidas por nuestro sistema y por los traductores profesionales».

Es necesario cambiar la evaluación de la NMT (Traducción Automática Neuronal)

En la conclusión de su artículo, Läubli, Sennrich y Volk explican que la NMT se encuentra actualmente en un nivel de fluidez en el que ya no son suficientes las puntuaciones BLEU (evaluación bilingüe subestudiada) basadas en un modelo único de traducción, ni las evaluaciones de traductores humanos no profesionales del resultado desde el punto de vista de frase.

«A medida que la calidad de la traducción automática mejore, las traducciones serán más difíciles de discriminar en términos de calidad, y puede ser el momento de pasar a la evaluación desde el punto de vista de documento, que ofrece a los calificadores más contexto para entender el texto original y su traducción», afirmaba la conclusión del documento.  Además, explicaba que la evaluación desde el punto de vista de documento muestra errores de traducción que de otro modo serían «invisibles» en una evaluación desde el punto de vista de frase.

Sostenemos que la MT ha alcanzado un nivel de calidad en el que esta «mejor práctica» debe cambiar: deberíamos utilizar documentos completos para evaluar la calidad de la MT».

Läubli aconsejó precaución a la hora de presentar los avances en la investigación de la MT. «Difundir rumores sobre la paridad humana es peligroso tanto para la investigación como para la práctica: es posible que las agencias de financiación no quieran seguir financiando la investigación en MT si creen que el problema está «resuelto» y los gestores de la traducción ya no estarán dispuestos a que los profesionales revisen los resultados de la MT», señaló.

De modo que, vistos los resultados del estudio hecho por los investigadores alemanes, así como la rápida evolución de los sistemas de traducción automática neuronal, es evidente que se imponen cambios en sus metodologías y normas de evaluación. Ello con la finalidad de obtener unos resultados más completos y acertados de los verdaderos alcances de la MT.  

 

¿Te ha gustado el artículo?
¡Deja tu comentario!

0 0 votes
Article Rating
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments
Iniciar chat
¿Necesitas ayuda?
👋 ¡Hola! Bienvenido/a a Traducciones Domínguez.

👩‍💼 Soy Paula Lara Domínguez, ¿en qué puedo ayudarte hoy? 🤔

¡No dudes en preguntarme cualquier cosa acerca de nuestros servicios de traducción! 🌍💬