Traducción automática: el programa Systran

Informática. Funcionamiento. Proyecto. Etapas: proceso. Marco histórico

  • Enviado por: Ny-ny
  • Idioma: castellano
  • País: España España
  • 20 páginas
publicidad

Índice

1. Marco histórico

  • Marco histórico

  • El sistema Systran se creó a finales de la década de los cincuenta y supuso uno de los primeros pasos de la traducción automática (TA). Su creador es Peter Toma y la primera prueba que se realizó con este sistema se utilizó en el par inglés - ruso en 1960.

    Más tarde, en 1968, el Systran comenzaría a utilizarse por las Fuerzas Aéreas de E.E.U.U. y también por la NASA.

    Una fecha relevante es la de junio de 1975 ya que se llevó a cabo una demostración del par inglés- francés para la Comisión de la Comunidad Europea. Tras esta demostración, se firmaría un contrato para realizar los módulos correspondientes para los restantes pares de lenguas. A este par seguirían el francés - inglés y el inglés - italiano. Desde aquel momento, la CCE ha desarrollado diversas versiones del Systran para unos determinados pares de lenguas.

    Además de su utilización en el ámbito burocrático y de empresa, algunos pares de lenguas se encuentran disponibles a nivel de usuario, accesibles a todo el público.

    Los pares que ya están disponibles y los que están en desarrollo son:

    Disponible

    En desarrollo

    Inglés Francés

    Inglés Alemán

    Inglés Japonés

    Inglés Ruso

    Inglés Español

    Inglés Italiano

    Alemán Francés

    Alemán Italiano

    Alemán Español

    Inglés Chino

    Inglés Coreano

    Inglés Árabe

    Inglés Danés

    Inglés Holandés

    Inglés Finlandés

    Inglés Noruego

    Inglés Sueco

    Francés Holandés

    Francés Alemán

    Francés Italiano

    Italiano Inglés

    Portugués Inglés

  • La traducción automática: el Systran

  • Funcionamiento del programa

  • El Systran está organizado por módulos, pero para poder llegar a comprenderlos tenemos que establecer una diferencia entre los dos tipos de programa que emplea:

  • Los programas del sistema sin conexión con las lenguas que se traducen. Son programas de control de utilidades, como las búsquedas en diccionarios.

  • Los programas de traducción, divididos en fases, de análisis y generación, independientes de los pares de lenguas que se utilicen.

  • Estableceremos, pues, una breve descripción de los procesos ejecutados por este sistema de traducción automática.

  • Principales componentes del sistema

  • Este sistema puede dividirse en tres componentes fundamentales:

  • Los programas de base

  • Los diccionarios

  • Los programas lingüísticos

  • Los programas de base

  • Los programas de base son comunes a todos los pares de lenguas con los que vayamos a traducir. Se pueden dividir en cuatro tipos:

  • El procesador: este programa tiene que identificar el formato del texto que estamos traduciendo y subdividir el texto en unidades de traducción según los retornos del carro y de la puntuación.

  • El “Main Dictionary Lookup” (MDL): este programa está destinado a la preparación del texto de origen a la hora de aplicar los diccionarios STEM y de “Idiom Replace”. Además, clasifica las palabras del texto en orden alfabético. Tras la consulta en el diccionario STEM, se establecen aquellas palabras que no han sido encontradas y se les trata de asignar una categoría dependiendo de su terminación. Para finalizar, coloca las palabras del texto en su orden original.

  • El programa de traducción: coloca cada una de las unidades de traducción en la zona de análisis. A cada una de las palabras se le atribuye 192 bytes donde se almacenan las informaciones recogidas de los diccionarios. Se traduce cada unidad por separado y se someten a los procesos de análisis, transferencia y síntesis.

  • Postprocesador: Una vez que se realiza la traducción, este programa se encarga de restablecer el formato del texto de salida.

  • Los diccionarios

  • Son la mayor base de riqueza informativa del sistema Systran a la hora de traducir. A partir de ellos se establecen las relaciones existentes entre las palabras que conforman un texto.

    Por cada par de lenguas necesitamos dos diccionarios:

  • El diccionario STEM: puede contener hasta 70.000 términos en los primeros pares de lenguas. En él se encuentran todas las palabras de un diccionario tradicional, con su traducción, información morfológica, gramatical y semántica. De este modo intenta acaparar la mayor parte de contextos posibles de un solo término. Las excepciones son analizadas por el “Topic Glossary” o por las reglas contextuales.

  • Este diccionario contiene, además, otro diccionario que se llama “Idiom Replace” donde encontramos locuciones adverbiales.

    Al principio, estos diccionarios eran bilingües, con lo que era necesario uno específico para cada par de lenguas. La tendencia a economizar recursos hizo que se fusionaran aquellos diccionarios de la misma familia lingüística.

  • El diccionario IDLS(Idiom/Limited Semantics): contiene entre unas 10.000 y 80.000entradas dependiendo de los pares de lenguas. Se trata de un diccionario de expresiones nominales y de reglas contextuales que nos permite conseguir una traducción diferente de aquella que nos proporciona el diccionario STEM. Es un diccionario bilingüe:

  • Las expresiones nominales se pueden presentar como ILS (sin traducción) o como SLS (Straight Limited Semantics, con traducción).

  • Las reglas contextuales, léxicas y gramaticales, pueden modificar la traducción de una palabra dependiendo de una palabra o grupo de palabras de un contexto dado. Aquí distinguimos:

    • Las CLS (Conditional Limited Semantics): son las reglas más simples y las más utilizadas.

    • Las HLS (Homograph Limited Semantics): ayudan a resolver los problemas de homografía.

    • Las PLS (Parsing Limited Semantics): nos permiten corregir o evitar ciertos errores de análisis.

    • Etapas del proceso de traducción

    • Es en esta fase donde los programas lingüísticos juegan un papel crucial. Éstos se subdividen en:

    • El análisis de la lengua origen que, tras la fusión de los diccionarios STEM, es la misma independientemente de las lenguas meta.

    • La transferencia entre la lengua origen y la lengua meta.

    • La síntesis de la lengua meta.

    • El análisis

    • En este punto, la unida de traducción se encuentra en la zona de análisis, donde comienza una serie de operaciones en cadena en donde la consecución de los resultados nos lleva a la síntesis final (proceso de traducción).

      Esta fase consiste en analizar el TO frase por frase (esta es la operación más importante y compleja de todo el proceso de traducción).

      Las principales operaciones que se llevan a cabo en este estadio son:

    • La resolución de los homógrafos y el reconocimiento de las diferentes partes del discurso.

    • La delimitación de las proposiciones principales y las subordinadas.

    • El establecer las relaciones sintácticas de base entre las palabras de la frase

    • El establecer las enumeraciones partiendo de las informaciones sintácticas y semánticas de los diccionarios STEM y de las expresiones del diccionario IDLS.

    • La identificación de los sujetos y verbos de cada oración.

    • La identificación de la estructura profunda de la frase para establecer relaciones entre el verbo y sus agentes, objetos,...

    • La trasferencia

    • La transferencia entre la LO y la LM se basa en los resultados obtenidos en la fase de análisis y de las informaciones contenidas en los diccionarios.

      Veamos lo que sucede en este estadio:

    • En este momento intervienen las reglas contextuales (CLS) introducidas en el diccionario IDLS. Estas reglas modifican la traducción de una o varias palabras en función de su contexto.

    • Es aquí donde se traducen las preposiciones.

    • Se emplean ciertas rutinas léxicas que nos permiten crear unas reglas a la hora de traducir los problemas más complejos que surgen entre la LO y la LM.

    • Síntesis o generación de la LM

    • En el estadio de síntesis, las palabras de la LO encuentran su traducción, la conjugación de los verbos, la concordancia de adjetivos,...

      Además, el orden de las palabras de la frase se recupera según las reglas de la LM. En el último escalón de la síntesis, intervienen los “Special Meaning Codes” que nos permiten obtener las partículas correspondientes según los verbos, el subjuntivo en una subordinada,...

      Con la síntesis se concluye con el proceso de traducción. Ahora es necesario pasar por el postprocesador para recuperar el texto en su formato original.

    • Systran: ¿sistema de primera o segunda generación?

    • A la hora de encasillar este sistema de traducción, han surgido diferentes corrientes a favor y en contra de su inclusión dentro de los sistemas de traducción de primera y segunda generación. Analizaremos las características de ambos y veremos si se ciñen a las que presenta el Systran.

    • Sistemas de traducción automática de 1º generación

    • Un sistema de traducción automática directa traduce el texto de una LO a la correspondiente LM con el método palabra por palabra o frase por frase. El resultado en la LM se reorganiza según el formato de dicha lengua. A la hora de mejorar los resultados, algunos sistemas de TA directa realizan análisis morfológicos antes de consultar el diccionario bilingüe, aunque raramente analizan la estructura de la oración en el texto de la LO.

      El mayor problema de los sistemas de TA directa es que no analizan ni la información lingüística ni el significado de las oraciones en la LO antes de traducirlas. Esto produce que este tipo de sistemas falle a la hora de resolver posibles ambigüedades y que no nos ofrezcan una traducción de calidad en la LM.

    • Sistemas de traducción automática de 2ª generación

    • Resulta obvio el hecho de que la información lingüística ayuda a los sistemas de TA a eliminar las ambigüedades que existen en la LO y así producir una traducción de mejor calidad en la LM.

      El módulo de análisis de la LO se centra en recabar la información lingüística de las oraciones de la LO para ayudar a la hora de traducir. El enfoque basado en la transferencia utiliza la información obtenida del módulo de análisis para mirar directamente en el diccionario las palabras correspondientes en la LM.

      El enfoque de interlingua propone el uso de una lengua intermedia (interlingua) a la que se traducirá el texto en LO y de la que se traducirá a la LM. Se trata de un lenguaje artificial que nos permite una traducción sin necesidad de echar la vista atrás sobre la LO.

    • Un caso particular: el Systran

    • Como hemos explicado, existen notables diferencias entre los sistemas de TA de 1ª y 2ª generación. Intentaremos averiguar aquí a cuál de ellos pertenece el Systran.

    • El Systran es un sistema de TA de 1ª generación, ya que traduce 23 pares de lenguas y es uno de los sistemas de TA más exitosos desde su creación hace 30 años.

    • En contraposición a esto, el Systran lleva a cabo cierto grado de análisis del TO. A pesar de que en su diseño estaba basado en los enfoques de 1ª generación, las etapas de traducción incluidas en el Systran nos recuerdan a los modelos de TA basados en transferencia. El análisis, transferencia y síntesis están organizados en módulos específicos.

      Utiliza un modelo lingüístico, lo que le permite llevar a cabo un análisis lingüístico y recabar y procesar toda la información necesaria.

      Aún así, el sistema Systran sólo lleva a cabo un análisis parcial de las oraciones de la LO. Dependiendo de la ambigüedad que presente el texto, será necesario un mayor o menor grado de análisis del mismo.

    • Se ha criticado la falta de una teoría lingüística coherente en la que basarse. Además, cuenta con un grado muy deficiente de generalización en la transferencia léxica y estructural. La mayor parte del trabajo es llevada a cabo por los diccionarios bilingües. Por tanto, sus métodos no son consistentes, su calidad no es la mejor y las modificaciones de la información léxica nos pueden llevar a resultados no deseados.

    • A pesar de carecer de una teoría lingüística formal, el Systran ha obtenido un enorme éxito y se sigue utilizando 30 años después de su creación por organismos como la USAF, la CCE,... A veces, la decisión que se ha tomado en un determinado módulo puede afectar al resultado final, por lo que es necesario, a veces, realizar más de un análisis para comprobar que la oración es correcta.

      El sistema Systran lleva a cabo una traducción mediante el uso de diccionarios bilingües que nos ayuden en la traducción palabra por palabra o frase por frase de los pares de lenguas. La construcción llevada a cabo por el sistema es independiente de los pares de lenguas que se vean implicadas, por lo que el Systran ofrece la posibilidad de traducir más de dos lenguas. Debido a esto, el Systran no necesita sofisticados módulos de análisis a la hora de procesar el texto de la LO durante el proceso de traducción.

    • EC SYSTRAN: el sistema de TA de la CCE

    • No nos pararemos demasiado en establecer una breve descripción de los hechos históricos que marcaron la llegada del Systran a la C.C.E ya que el apartado 1 de este informe nos relata la puesta en contacto del Systran con la Comisión Europea.

      Sí es necesario mencionar que, actualmente, el desarrollo del Systran por este organismo ha generado la creación de 18 pares de lenguas comunitarias disponibles en la actualidad:

      Inglés : francés, italiano, alemán, holandés, español, portugués, griego.

      Francés: italiano, alemán, inglés, holandés, español, portugués

      Alemán: francés, inglés

      Español: francés, inglés

      Griego: francés

      El hecho de que la Comisión se haya decantado por estos pares de lenguas obedece a las siguientes causas:

    • Debido a las necesidades internas de la Comisión: el inglés y el francés son las lenguas de trabajo, a las que se añadieron el italiano y el alemán.

    • Debido a la calidad de la traducción que se esperaba de lenguas pertenecientes a la misma familia lingüística.

    • Debido a los problemas presupuestarios de la Comisión, no se pueden llevar a cabo los módulos de los 110 pares de lenguas.

    • En el 2001, se han firmado acuerdos de colaboración con los gobiernos holandés y portugués para el desarrollo de los pares Portugués - Inglés/Francés y Holandés - Inglés/Francés. También se están estudiando propuestas para la inclusión de las lenguas nórdicas.

    • Utilización de la TA

    • El sistema EC SYSTRAN se encuentra disponible en Internet; además, este sistema de TA es muy fácil de usar: los usuarios simplemente mandan sus documentos a un buzón especial exponiendo las combinaciones lingüísticas que necesitan y el tema sobre el que trata. La traducción se devuelve del mismo modo en una media hora, dependiendo del número de peticiones. A veces, los usuarios reciben sus traducciones en tan sólo unos minutos.

      Este sistema de traducción soporta diferentes formatos pero la política oficial de la Comisión es la de animar a que se use el formato RTF, ya que resulta muy costoso actualizar el convertidor cada vez que se actualiza el programa.

      Además de Internet, los usuarios también pueden acceder a este programa de TA a través de la interfaz EURAMIS (European Advanced Multilingual Information System) que proporciona:

      • Traducción automática.

      • Un vínculo a la base de datos legal, en once lenguas, de la UE, el CELEX. Este servicio consigue que las referencias a textos legales en los documentos que se van a traducir sean extraídas automáticamente en la LM.

      • Un listado terminológico: traducción de un listado de términos realizada por el Eurodicautom.

      • El obtener terminología a partir de un texto: traducción mediante el Eurodicautom de los términos de un texto. El programa de TA analiza y extrae los términos que se enviarán al Eurodicautom.

      • Una memoria de traducción y herramientas para la alineación del texto.

      • Demanda de TA

      • Los pares de lenguas más solicitados son inglés - francés y francés - inglés, ya que éstas son las lenguas que más se utilizan en la Comisión y podemos obtener una calidad de traducción bastante aceptable. En tercer y cuarto lugar se encuentran los pares francés - español e inglés - español respectivamente. Estos pares de lenguas se utilizan sobre todo en el Servicio de Traducción (y no así en los departamentos de administración) y son los que más están adaptados a las necesidades de los traductores, ya que cuenta con una gran cantidad de feedback por parte de los traductores españoles.

      • ¿Por qué se utiliza la TA?

      • Los estudios realizados sobre esta cuestión revelan que existen 3 razones por las cuales los usuarios de la Comisión solicitan la ayuda de la TA:

        • Para una traducción rápida de textos cortos, repetitivos y que poseen una estructura y terminología estandarizada. Se distribuyen de forma interna y no se deben usar para legislación o publicación. No es recomendable para textos extensos.

        • Para echar un vistazo a aquellos textos que están escritos en una LO que desconocemos. La calidad de traducción no es alta pero su velocidad es destacable.

        • Para hacer un borrador en una lengua que sea distinta a nuestra lengua materna o lengua principal.

        El personal de administración y los traductores no tienen los mismos objetivos puestos en la TA. Los primeros se conforman con una traducción rápida de los textos ya que, de todos modos, serán revisados una docena de veces antes de su versión definitiva. Por el contrario, los traductores esperan que la TA produzca siempre textos de primera categoría.

      • Servicio rápido de post-edición

      • El Servicio de Traducción también ofrece al personal de administración un servicio externo de TA que tiene que ver con la post-edición. Está destinado para aquellas personas que solicitan la TA con unas fechas de entrega muy estrictas. Así pues, los trabajos de corrección se envían a traductores Freelance que han de centrarse más en la rapidez y en la precisión que en el estilo.

      • Proyecto de migración

      • El sistema empleado por la Comisión ha resultado ser uno de las herramientas más robustas del mercado, ya que sigue resultando más útil invertir en diccionarios de TA y mejorar la calidad del output que en re- escribir los programas.

        Así, el Centro de Datos anunciaba que el soporte Amdahl se quedaría desfasado en un período de 5 años, por lo que el Servicio de Traducción se vio obligado o bien a encontrar un emulador moderno para el Amdahl o bien a re- escribir los programas en un lenguaje de programación más actual. Se decidió colocar el EC SYSTRAN en una nueva plataforma, UNIX.

        Esto supone la “migración” de los programas básicos a esta nueva plataforma ya que:

        • Nos ofrece un futuro mucho más abierto.

        • Se estaba haciendo realmente complicado encontrar técnicos especializados en IBM.

        • La versión comercial del SYSTRAN ya había hecho su “migración”, con lo que se podía contar con esta experiencia.

        • Abría nuevas posibilidades, como la traducción de páginas web o la creación, mediante herramientas personales, de diccionarios propios.

        El Servicio de Traducción aún se encuentra completando esta migración.

      • Conclusión

      • Después de 30 años, la TA se ha convertido en una herramienta muy útil para las traducciones que se necesitan a diario en aquellos organismos que cuentan con sus servicios. Además, también proporcionan a los traductores una herramienta de apoyo muy importante, aunque esto depende de la LM.

        La TA no trata de sustituir a los traductores humanos. Esto es imposible ya que los ordenadores carecen de la experiencia y del conocimiento del mundo que sólo un humano posee. Se trata únicamente de un accesorio que puede ahorrar a los traductores mucho trabajo.

      • Anexo: ejemplo de la traducción del Systran

      • Traducción automática: el programa Systran

        En este caso hemos introducido un texto perteneciente a una página web en español dedicada a Johan Cruyff. Analizaremos en esta primera pantalla cómo el sistema Systran realiza una traducción con el par de lenguas español - ings y comentaremos también qué aciertos y qué fallos comete este sistema debido a su programación.

        En primer lugar debemos advertir que el vocabulario empleado en esta página está relacionado con el mundo del fútbol así que muchas de las palabras que se emplean habitualmente contarán con un significado especial en este contexto.

        Por ejemplo, podemos ver esta característica a la hora de traducir cantera, a la cual le asigna el término genérico en inglés quarry. La utilización de esta acepción en este contexto es errónea y debería ser sustituida por el término nursery, especialmente utilizado en inglés para la cantera de jóvenes talentos dentro de los equipos de fútbol.

        Además de los problemas que presentan la elección de la acepción adecuada dependiendo del contexto, el programa falla a la hora de traducir los nombres propios ya que, precisamente, llega a traducirlos. Este es el caso de los nombres de dos jugadores: De la Peña y Moreno, a los que traduce respectivamente como Of the Rock y Coloured person. Lo único que se ha limitado a hacer el programa es a traducir aquellos nombres propios que tienen una correspondencia en el diccionario de la LM y les añade las mayúsculas.

        Esto no ocurre en el caso del apellido Cruyff. En este caso el sistema no lo ha traducido porque no ha encontrado una correspondencia en su diccionario en inglés. Se limita a conservar la mayúscula pero falla a la hora de tratarlo como un sujeto humano (falta de conocimiento del mundo y de experiencia) ya que sería necesaria la utilización del genitivo sajón nada más comenzar la traducción. Así pues tenemos: la destitución de Cruyff, que ha sido traducido por The destitution of Cruyff en vez de Cruyff´s destitution.

        Estos son los errores más llamativos dentro de este ejemplo. Como hemos podido ver, el sistema presenta graves carencias a la hora de traducir nombres propios, ya que se limita a tomarlos como correspondencias en inglés que empiezan con mayúscula. Además, falla a la hora de emplear las reglas gramaticales debido a esa falta de conocimiento del mundo real, por lo que a veces puede tener la apariencia de una traducción palabra por palabra.

        Traducción automática: el programa Systran

        Este segundo ejemplo ha sido tomado de otra página web, pero esta vez la LO es el inglés. Nada más empezar vemos una mala traducción del verbo to be born que, en vez de ser traducido como nacido, ha sido erróneamente traducido por llevado.

        Otro de los errores de traducción que observamos es la traducción de la expresión the only child. Ésta es una expresión en inglés que tiene su correspondencia en hijo único en español. Vemos cómo el Systran se ha limitado a traducirlo palabra por palabra generando una traducción como el único niño, lo que podría generar ambigüedades ya que puede considerarse como el único hijo varón entre la demás progenie cuando se trata de un hijo único.

        Otro error garrafal que podemos observar en este ejemplo es la nefasta traducción de la tercera oración al completo. El ejemplo es:

        He was educated at Cowbridge Grammar School At 17,...

        La traducción correcta de esta oración sería: estudió en el instituto Cowbridge. A los 17, ... En vez de esto tenemos le educaban en la escuela de la gramática de Cowbridge en 17,... enlazando con la siguiente oración.

        En primer lugar observamos cómo se limita a traducir palabra por palabra el término grammar school. La falta de conocimientos socioculturales de este sistema hace que el Systran no identifique estos términos y no los traduzca por instituto. Lo que nos proporciona, debido a esta laguna de conocimiento, es una traducción palabra por palabra escuela de la gramática.

        Por otra parte, vemos que en inglés el adverbio At aparece en mayúsculas, ya que es comienzo de oración aunque el punto se encuentre omitido. El Systran no lo toma en consideración, al no ver el punto, y ensambla ambas oraciones en una. Además, genera una mala traducción, en este contexto, de la preposición at. El programa sólo ha escogido su uso más frecuente como preposición de lugar, pero no así de tiempo, como debería ser en este caso. Así pues, tenemos una traducción de esa preposición como en en vez de a los.

        Por último, la oración que nos falta por analizar también está plagada de errores. En el texto original tenemos:

        At 17, he wandered into a YMCA amateur theatrical production and knew immediately that he was in the right place

        En este caso, se produce una traducción horrible del verbo wander. Systran nos ofrece una traducción para este verbo: erró, cuando lo que significa en realidad este verbo en este contexto es dejarse caer. También es cierto y hemos de valorar la correcta traducción y reordenación de la expresión a YMCA amateur theatrical production a la hora de traducirla al español como producción de teatro aficionado de YMCA.

        Para terminar de analizar este fragmento, hemos de hablar de la última oración: and knew immediately that he was in the right place.

        El programa utiliza para la traducción de la forma verbal knew en su variante imperfectiva sabía, cuando lo más correcto es utilizar la forma perfectiva al tratarse de una acción acabada. Por lo tanto, debería decantarse morfológicamente por la forma verbal supo.

        La traducción del término right por derecho también es debida por el criterio de uso y no por las características contextuales. La traducción que contextualmente mejor se adapta en este caso es la de correcto.

        Como hemos podido comprobar con el análisis de estos dos ejemplos es que el Systran falla en aquellos aspectos que tienen que ver con características socioculturales, ya que carece por completo de este tipo de conocimientos. Por esta razón, comete muchos errores a la hora de traducir nombres propios o a la hora de elegir determinadas acepciones de una misma palabra sin tener en cuenta el contexto.

        En lo referente a la traducción de estructuras gramaticales, no hemos observado en estos ejemplos ningún tipo de problema y es de alabar el hecho de que consiga un reordenamiento correcto dependiendo de la LM.

        En mi opinión, se trata de un sistema bastante básico de TA que, si bien, puede ser uno de los más completos y utilizados, no puede permitirse el cometer errores tan sencillos y llamativos.

        La traducción automática:

        El Systran

        Leonor Liz Losada

        3º Traducción

        22

        21