2011-06-13 14 views
7

Se me ha encomendado buscar una forma de convertir una gran cantidad de archivos .docx a docbook 5. Actualmente, abrimos el archivo en openoffice y lo guardamos en docbook. Esta es una tarea que consume tiempo, pero estoy seguro de que hay una mejor manera. Estos archivos se procesarán más adelante en nuestro esquema personalizado de relajación NG. Por lo tanto, esta conversión no necesita ser perfecta. He mirado alrededor, y seguiré investigando algunas pistas, pero no he encontrado nada útil.Convertir palabra (.docx) en docbook

mirando Convert doc/docx to semantic HTML han sugerido upCast, pero esto no parece adecuado a mis necesidades.

Estoy buscando algo libremente disponible que pueda usar desde la línea de comandos. En última instancia, me gustaría procesar por lotes nuestros archivos. He incluido las etiquetas de Linux, Python y Java porque estos son los entornos en los que me siento más cómodo, pero estaría dispuesto a inclinarme por la solución adecuada. Intento investigar un poco antes de salir y reinventar la rueda.

+0

Considerado mirando el API OpenOffice a la secuencia de comandos abierta + guardar-como? –

+1

He editado su pregunta y la he eliminado bastante, ha estado aquí por un tiempo, pero consulte las [Preguntas frecuentes] ya que no se debe agregar una firma, y ​​su PS es una pregunta subjetiva y casi diferente. Revise mi edición y vea si su pregunta aún está completa. – Trufa

+0

es Trufa, gracias por la edición. Supongo que estoy más familiarizado con los intercambios de correo electrónico que con stackoverflow. @ Thorbjørn Ravn Andersen, no tengo esta quizás una solución viable. – matchew

Respuesta

6

Hay varias formas de escritura de esto, tanto el uso de scripts externos y scripts dentro de OpenOffice. Consulte los siguientes enlaces para ver algunos ejemplos:

Algunos de los enlaces anteriores no están utilizando Java o Python, pero los principios todavía se aplican y los guiones son generalmente sh Lo suficiente como para que puedan ser portados (el primer ejemplo está en Ruby, pero es mi favorito personal debido a la simplicidad).

+0

gracias, por una razón u otra me decidí por la solución de python http://mail.python.org/pipermail/python-announce-list/2006-May/004951.html – matchew

2

A riesgo de obtener una insignia de arqueólogo de SX, las respuestas deben incluir una referencia a Pandoc. Esto no depende de la oficina abierta.

pandoc -f docx -t docbook -o newdocbook.dbk --standalone original.docx

Cuestiones relacionadas