Creo que está diciendo que la estructura del documento está codificada en el formato y que desea producir archivos XML que capturen esa estructura, manteniendo el contenido en texto sin formato.
Si es así, deberá analizar los documentos y crear una estructura de datos que pueda procesarse y luego descartar como XML.
Para el análisis sintáctico, hay algunas opciones. Microsoft have published las especificaciones para su formato .doc binario, la lectura de las cuales será esencial para escribir un analizador para ello. En el caso de .docx tiene un poco más de suerte, ya que está en formato XML, por lo que podría usar cualquier biblioteca de análisis XML para leer en el archivo, luego buscar en el árbol resultante los datos que le interesan. XML los analizadores están disponibles para casi cualquier idioma, uno fácil de usar que viene a la mente es MiniDom para Python.
Para generar su salida XML, una vez más, una representación de objetos a la biblioteca XML parece ser el camino a seguir, MiniDom, por ejemplo, también lo hace.
Si no quiere tratar con la escritura de su propio analizador .doc, podría ejecutar los documentos a través de un convertidor que produzca un formato más accesible primero, como usar Word para convertir los archivos .doc a .docx , o una herramienta que produce RDF desde .docs, o puede usar un analizador de palabras existente como el de OpenOffice.
Podría explicar cómo se generan los elementos XML de los documentos de Word? Si se basa exclusivamente en texto, trataría primero de convertirlos en texto sin formato. –
Ver http://bytes.com/topic/python/answers/24103-parsing-ms-word-document –
Ver http: // stackoverflow.com/questions/125222/extracting-text-from-ms-word-files-in-python – fmark