Traducción humana frente a traduccióna automática: comparar documentos, no frases

¡Valóralo!
Índice de Contenido

El debate entre el traductor profesional y la traducción automática se remonta a la década de 1950, posiblemente incluso antes, y es tan fascinante como agotador. El rápido progreso de la traducción automática neural en los últimos dos años ha hecho resurgir el debate, llevando incluso a grandes empresas tecnológicas como Microsoft a publicar artículos de investigación con títulos atrevidos (si no engañosos) como «Lograr la paridad humana en la traducción automática de noticias del chino al inglés».

Es cierto que los autores de Microsoft moderaron sus afirmaciones. Según su artículo, la paridad humana se consigue «si no hay una diferencia estadísticamente significativa entre las puntuaciones de calidad humana para un conjunto de prueba de traducciones candidatas de un sistema de traducción automática y las puntuaciones de las correspondientes traducciones humanas».

En otras palabras, si un evaluador humano bilingüe juzga la calidad de las traducciones humanas y automáticas como iguales (la diferencia en las puntuaciones es estadísticamente insignificante), «entonces la máquina ha logrado la paridad humana».

La entrada de Läubli, Sennrich y Volk

En la actualidad, un grupo de investigadores sostiene que muchos investigadores y expertos de la industria han estado analizando la cuestión desde un ángulo equivocado.

En un artículo titulado «¿Ha alcanzado la traducción automática la paridad humana?  Un caso de evaluación a través del documento», Samuel Läubli, candidato a doctor en la Universidad de Edimburgo, y los coautores Dr. Rico Sennrich, profesor adjunto de la Escuela de Informática de la Universidad de Edimburgo, y Dr. Martin Volk, del Instituto de Lingüística Computacional de la Universidad de Zúrich, sostienen que la investigación debería centrarse en el contexto a escala documento en lugar de comparar los resultados a través de las frases.

Los autores utilizaron traductores humanos profesionales para evaluar el rendimiento del motor NMT utilizado por Microsoft en la tarea de noticias de chino a inglés de la Conferencia sobre Traducción Automática (WMT) de 2017. Además, también utilizaron la clasificación por pares (comparación lado a lado de la traducción humana frente a la automática), a la vez que tuvieron en cuenta el contexto desde el punto de vista de documento a la hora de calibrar tanto la adecuación como la fluidez de la traducción.

La afirmación de Microsoft sobre la paridad humana, según su definición, se sostenía, pero solo porque utilizaban las normas actuales de investigación de la MT, que, según el artículo de Läubli, se han vuelto inadecuados para evaluar eficazmente la NMT.

Volk corrigió algunos problemas de la evaluación utilizada en el documento de investigación de Microsoft.

«Conociendo los puntos fuertes y débiles de la NMT, no podíamos imaginar que el sistema [de Microsoft] hubiera alcanzado realmente la calidad de los traductores humanos profesionales», dijo Läubli a Slator por correo electrónico.

Explicó que Microsoft siguió las normas de investigación actuales en su metodología, en la que normalmente, «los calificadores ven frases sueltas -una por una, de cualquiera de los documentos de prueba, en orden aleatorio- y califican su adecuación y fluidez en una escala de 0 a 100».

Sin embargo, en este proceso, Läubli dijo que a los evaluadores les resultaba «imposible» observar ciertos errores de traducción, por lo que no podían tenerlos en cuenta adecuadamente.

Señaló algunos de los principales problemas del proceso de Microsoft, entre otros:

  • Los evaluadores eran bilingües, no necesariamente traductores profesionales.
  • Los evaluadores solo evaluaron la adecuación, no la fluidez.
  • Los evaluadores «nunca compararon directamente la traducción humana con la automática». Las examinaron por separado y asignaron puntuaciones.

Para abordar el problema de la comparación directa, Läubli dijo que «utilizamos la clasificación por pares en nuestros experimentos.  Los calificadores siempre veían la traducción humana y la automática de un determinado texto fuente al mismo tiempo, y elegían la mejor de las dos».

«Permítanme asegurarles que la comunidad de MT no cree que la NMT haya alcanzado todavía el nivel de los traductores profesionales», concluyó.

No es culpa de Microsoft

Los resultados de Läubli, Sennrich y Volk señalan algunas cosas interesantes.

Uno de los principales hallazgos fue que los traductores humanos profesionales prefirieron con creces las traducciones humanas en comparación con los resultados de la NMT cuando se les proporcionó el contexto de todo el documento y no solo frases sueltas.

Además, los mismos evaluadores profesionales preferían la fluidez de las traducciones humanas.  Sin embargo, no hubo una preferencia estadísticamente significativa en ninguno de los dos sentidos cuando se trató de la adecuación de las frases.

El contexto desde el punto de vista de documento es actualmente una prioridad para la investigación de la NMT. Es uno de los próximos grandes problemas, tal y como se informa en el informe de Slator sobre la NMT de 2018 y lo destacan los expertos en la materia entrevistados, entre los que se encuentran Läubli y Sennrich.

«No es culpa suya», dijo Läubli a Slator, refiriéndose a Microsoft, «El procedimiento que utilizaron es una práctica uniforme en la comunidad de la MT».

«Microsoft no tiene la culpa de la evaluación de su sistema.  Siguió la «mejor práctica» de la comunidad basada en la evaluación de frases, no de documentos completos, y nosotros sostenemos que la MT ha alcanzado un nivel de calidad en el que esta «mejor práctica» debe cambiar: deberíamos utilizar documentos completos para juzgar la calidad de la MT», dijo.

De hecho, en la conclusión de su artículo, los autores escribieron que «si aceptamos nuestra interpretación de que la traducción humana es efectivamente de mayor calidad en el conjunto de datos que probamos, esto apunta a un fallo de las mejores prácticas actuales en la evaluación de la traducción automática».

En su correo electrónico, Läubli añadió, sin embargo, que el equipo de Microsoft podría haber empleado la denominación un poco mejor.  «El título de su artículo era un poco aventurado», dijo, «debería haber dicho algo así como: Los no profesionales bilingües dan puntuaciones similares a las frases aisladas producidas por nuestro sistema y por los traductores profesionales».

Es necesario cambiar la evaluación de la NMT

En la conclusión de su artículo, Läubli, Sennrich y Volk explican que la NMT se encuentra actualmente en un nivel de fluidez en el que ya no son suficientes las puntuaciones BLEU (evaluación bilingüe subestudiada) basadas en un modelo único de traducción, ni las evaluaciones de traductores humanos no profesionales del resultado desde el punto de vista de frase.

«A medida que la calidad de la traducción automática mejore, las traducciones serán más difíciles de discriminar en términos de calidad, y puede ser el momento de pasar a la evaluación desde el punto de vista de documento, que ofrece a los calificadores más contexto para entender el texto original y su traducción», afirmaba la conclusión del documento.  Además, explicaba que la evaluación desde el punto de vista de documento muestra errores de traducción que de otro modo serían «invisibles» en una evaluación desde el punto de vista de frase.

Sostenemos que la MT ha alcanzado un nivel de calidad en el que esta «mejor práctica» debe cambiar: deberíamos utilizar documentos completos para evaluar la calidad de la MT».

Läubli aconsejó precaución a la hora de presentar los avances en la investigación de la MT. «Difundir rumores sobre la paridad humana es peligroso tanto para la investigación como para la práctica: es posible que las agencias de financiación no quieran seguir financiando la investigación en MT si creen que el problema está «resuelto» y los gestores de la traducción ya no estarán dispuestos a que los profesionales revisen los resultados de la MT», señaló.

El equipo de Läubli no es el primero en señalar que las normas actuales de la comunidad de investigación en MT deben cambiar.

En el Informe NMT 2018 de Slator, los expertos señalaron las limitaciones de las actuales normas de puntuación BLEU y ofrecieron algunas alternativas mejores. En su propio documento de investigación, el profesor Andy Way, director adjunto del Centro ADAPT de Tecnología de Contenidos Digitales, afirmó que «las métricas basadas en n-gramas, como el BLEU, son insuficientes para demostrar realmente los beneficios de la NMT sobre la MT [basada en frases, estadística e híbrida]».

«Si la NMT se convierte en la nueva norma, tal y como se espera en este campo, se puede anticipar que aparecerán más pronto que tarde nuevas métricas de evaluación ajustadas con mayor precisión a este paradigma», escribió Way en su artículo.

Descargue el informe Slator 2019 sobre traducción automática neural para conocer los últimos avances de la traducción automática neural y su implantación.

¿Te ha gustado el artículo?
¡Deja tu comentario!

¡NUEVO EBOOK!

La Localización: Claves para el Éxito Internacional de tu empresa

Descárgatelo gratis.