2011-06-28 16 views
7

Estamos buscando un programa que nos permita convertir un documento doc o docx a un archivo txt. Estamos trabajando con Linux y queremos comenzar un sitio web que convierta los archivos doc cargados por el usuario. No queremos usar la oficina abierta/oficina libre porque tenemos mala experiencia con eso. Pandoc no puede manejar archivos de documentos:/Convertir documento a texto a través de la línea de comandos

¿Alguien tiene una idea?

Respuesta

1

aquí hay un perl project que pretende hacerlo. También he hecho mucho de esto a mano, usando XSLT en document.xml. el archivo Docx en sí mismo es solo un archivo zip, puede descomprimirlo e inspeccionar los elementos. Diré que esto no es difícil de hacer para archivos específicos, pero es muy difícil de hacer en el caso general, debido a la falta de documentación sobre cómo Word almacena cosas internamente, y la varianza de la representación interna.

3

Tendrá que utilizar dos herramientas de línea de comandos diferentes, dependiendo de si está trabajando con formato .doc o .docx.

Para .doc uso catdoc:

catdoc foo.doc > foo.txt 

Para uso .docx DOCX2TXT:

docx2txt foo.docx 

Este último producirá un archivo llamado foo.txt en el mismo directorio que el original.

No estoy seguro de qué distribución de Linux está utilizando, pero tanto catdoc como docx2txt están disponibles en los repositorios de Ubuntu, por ejemplo.

Cuestiones relacionadas