2012-07-02 23 views
12

Estamos buscando un Motor de traducción automática de código abierto que podría incorporarse a nuestro flujo de trabajo de localización. Estamos pensando en las siguientes opciones:Motores de traducción automática de código abierto?

  1. Moses (C++)
  2. Joshua (Java)
  3. Phrasal (Java)

Entre ellos, Moisés tiene el mayor apoyo de la comunidad y tiene ha sido probado por muchas empresas de localización e investigadores. En realidad, nos estamos inclinando por un motor basado en Java, ya que nuestras aplicaciones están todas en Java. Alguno de ustedes usó Joshua o Phrasal como parte de su flujo de trabajo. ¿Podría compartir sus experiencias con ellos? O, ¿está Moisés muy por delante de estos en términos de las características que proporciona y la facilidad de integración.

Y, es necesario que el motor soporta:

  1. formación específicos de dominio (es decir, que debe mantener las tablas de frases separadas para cada dominio que pertenecen los datos de entrada).
  2. Entrenamiento incremental (es decir, evitar tener que volver a entrenar el modelo desde cero cada vez que deseamos utilizar algunos datos de entrenamiento nuevos).
  3. Paralelizar el proceso de traducción.
+0

[Marcus] (http://stackoverflow.com/users/840647/marcus) preguntó: Sólo curiosidad por saber, ¿ha empezado a utilizar ya sea Joshua o Phrasal? Si es así, ¿es posible compartir tu experiencia? –

+0

Bienvenido a Stack Overflow. Interesante pregunta. He hecho un poco de búsqueda en Google para encontrar las URL que inserté en la pregunta para ti; hubieras tenido una pregunta aún mejor si la hubieras agregado tú mismo (y tal vez se te ocurriera una URL mejor que el PDF para Phrasal) –

+1

¿Alguien sabe por qué algunos de los nombres de software de traducción automática de alguna manera relacionados con egpyt/israel? p.ej. GIZA, MOISES, Joshua. – alvas

Respuesta

5

Esta pregunta es mejor hecha en la lista de correo de Moses ([email protected]), creo. Hay muchas personas que trabajan con diferentes tipos de sistemas, por lo que obtendrás una respuesta objetiva. Aparte de eso, aquí está mi entrada:

  • Con respecto a Java: no importa en qué idioma está escrito el sistema MT. No se ofenda, pero puede suponer sin temor a equivocarse que incluso si el código se escribió en un idioma con el que estaba familiarizado, sería demasiado difícil de entender sin un conocimiento más profundo de MT. Entonces, lo que estás buscando son interfaces. El xml-rpc de Moses funciona bien.
  • Con respecto a los sistemas MT: busque los mejores resultados, ignore el lenguaje de programación en el que está escrito. Los resultados están aquí: matrix.statmt.org. Las personas que usan su sistema MT están interesadas en la salida, no en sus preferencias de codificación.
  • Con respecto a toda la empresa: una vez que comience a ofrecer salida MT, asegúrese de que puede adaptarse rápidamente. MT está cambiando rápidamente hacia un proceso de canalización en el que un sistema MT es el componente central (y no el único). Así que concéntrese en la capacidad de mantenimiento. En el caso ideal, usted podría conectar cualquier sistema MT a su marco.

Y aquí está una cierta entrada en sus peticiones de características:

  • la formación específica de dominio: no es necesario que la función. Obtiene los mejores resultados de MT al utilizar la capacitación de datos específicos del cliente.
  • formación incremental: ver Stream Based Statistical Machine Translation
  • Paralelización el proceso de traducción: usted tendrá que poner en práctica esto por sí mismo. Tenga en cuenta que la mayoría del software MT es puramente académico y nunca alcanzará un hito de 1.0. Por supuesto, ayuda si hay un servidor de subprocesos múltiples disponible (Moses), pero incluso entonces, necesitará muchos códigos de aprovechamiento.

Espero que esto ayude. No dudes en enviarme un PM si tienes más preguntas.

5

Mucho ha estado avanzando, así que pensé en dar una actualización sobre este tema, y ​​dejar la respuesta anterior allí para documentar el progreso.

Capacitación específica de dominio: las técnicas de adaptación de dominio pueden ser útiles si sus datos provienen de diversas fuentes y necesita optimizar hacia un subdominio. Según nuestra experiencia, no existe una solución única que tenga el mejor rendimiento sistemáticamente, por lo que debe probar tantos enfoques como sea posible y comparar resultados. Hay un correo en la lista de correo de Moses que enumera los métodos posibles: http://thread.gmane.org/gmane.comp.nlp.moses.user/9742/focus=9799various. La siguiente página también da una visión general de la investigación actual: http://www.statmt.org/survey/Topic/DomainAdaptation

formación elemental: no había una interesante charla sobre IWSLT 2013: http://www.iwslt2013.org/downloads/Assessing_Quick_Update_Methods_of_Statistical_Translation_Models.pdf se demostró que los métodos incrementales actuales (1) tome su sistema fuera de línea, lo que no tienen real " live-update "de sus modelos (2) son superados por entrenamientos completos. Parece que el problema no ha sido resuelto aún.

Paralelizar el proceso de traducción: el servidor de moses se queda atrás en el binario de moses-cmd. Entonces, si desea usar las últimas características, es mejor comenzar desde moses-cmd. Además, la comunidad no ha cumplido su promesa de nunca lanzar una versión 1.0 :-). De hecho, usted puede encontrar la última versión (2.1) aquí: http://www.statmt.org/moses/?n=Moses.Releases

Cuestiones relacionadas