¿Alguna recomendación sobre un método para convertir .doc, .ppt y .xls a texto sin formato en Linux utilizando Python? Realmente, cualquier método de conversión sería útil. Ya he analizado el uso de Open Office, pero me gustaría una solución que no requiera tener que instalar Open Office.python convertir documentos de Microsoft Office a texto sin formato en Linux
Respuesta
Me gustaría ir a la solución de línea de comandos (y luego usar el Python subprocess module para ejecutar las herramientas desde Python).
Convertidores para msword (catdoc), Excel (xls2csv) y ppt (catppt) se pueden encontrar (en forma de código fuente) aquí: http://vitus.wagner.pp.ru/software/catdoc/.
Realmente no puedo comentar sobre la utilidad de catppt, pero catdoc y xls2csv funcionan muy bien!
Pero asegúrese de buscar primero en los repositorios de distribuciones ... En ubuntu, por ejemplo, catdoc es solo un rápido apto para escaparse.
1 para no usar formatos de oficina abierta, al igual que el PO quería. – Droogans
La herramienta habitual para convertir documentos de Microsoft Office a HTML u otros formatos fue mswordview, que desde entonces se ha renombrado como vwWare.
Si usted está buscando una herramienta de línea de comandos, que en realidad recomiendan el uso de AbiWord para realizar la conversión:
AbiWord --to=txt
Si usted está buscando una biblioteca, se inicia en el wvWare overview page. También mantienen a list of libraries and tools which read MS Office documents.
Para tratar con las hojas de cálculo de Excel xlwt es bueno. Pero no ayudará con los archivos .doc
y .ppt
.
(Es posible que también han oído hablar de PyExcelerator. Xlwt es un tenedor de esto y mantiene mejor, así que creo que estaría mejor con xlwt.)
Puede acceder OpenOffice via Python API.
Trate de usar esto como una base: http://wiki.services.openoffice.org/wiki/Odt2txt.py
He tenido cierto éxito al usar XSLT para procesar los archivos de oficina basados en XML en algo utilizable en el pasado. No es necesariamente una solución basada en Python, pero hace el trabajo.
Mismo problema aquí. A continuación se muestra mi script simple para convertir todos los archivos doc en dir 'docs /' a dir 'txts /' usando catdoc. Esperamos que ayude a alguien:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import glob, re, os
f = glob.glob('docs/*.doc') + glob.glob('docs/*.DOC')
outDir = 'txts'
if not os.path.exists(outDir):
os.makedirs(outDir)
for i in f:
os.system("catdoc -w '%s' > '%s'" %
(i, outDir + '/' + re.sub(r'.*/([^.]+)\.doc', r'\1.txt', i,
flags=re.IGNORECASE)))
Haha ... + 1 por usar Python ... para usar bash. Buen trabajo seguir con las solicitudes de OP ... más o menos. ': D' – Droogans
@Droogans: él, él, estos guiones rápidos en varios idiomas son realmente irónicos. Empecé a hacer bash, las reglas para cambiar el nombre del archivo de salida se volvieron extrañas, luego simplemente lo puse dentro de un script de Python. Es más fácil que usar un módulo de subproceso, tuberías, etc. – neves
- 1. documentos de Office Convert sin Office
- 2. Cómo convertir reStructuredText a texto sin formato
- 3. Leer documentos de Microsoft Word en texto sin formato (DOC, DOCX) en Java
- 4. ¿Cuál es la mejor manera de analizar documentos de Microsoft Office y PDF?
- 5. cómo convertir texto HTML a texto sin formato?
- 6. Convierta texto sin formato a PDF en Python
- 7. ¿Subversión eficientemente documentos de Office OpenXML?
- 8. Convertir html a texto sin formato en VBA
- 9. Python: Cómo convertir texto con formato de rebajas al texto
- 10. ASP clásico (VBScript) convertir códigos HTML a texto sin formato
- 11. Formato del Portapapeles de Office
- 12. Convertir HTML a texto sin formato y mantener la estructura/formato, con ruby
- 13. ¿Hay un módulo de Python para convertir RTF a texto sin formato?
- 14. La mejor manera de convertir HTML a texto sin formato usando Python
- 15. ¿Cuál es una buena opción para convertir documentos de Office a PDF o Imagen
- 16. Microsoft Office Interop Assembly referencias
- 17. Documentos RFC a formato A4
- 18. ¿Reducción a texto sin formato en Ruby?
- 19. RTF a texto sin formato en Java
- 20. Instalación de Microsoft Office 2007 en un servidor Core Machine
- 21. Convertir texto a formato de número en Excel
- 22. Microsoft Powerpoint Python Parser
- 23. Reconocer URL en texto sin formato
- 24. Analizando y generando archivos de Microsoft Office 2007 (.docx, .xlsx, .pptx)
- 25. Acceso de Microsoft Office `LIKE` VS` RegEx`
- 26. Convertir binario en escala de grises sin formato a JPEG
- 27. Conversión de documentos de MS Word a PDF en ASP.NET
- 28. Convertir XML a texto sin formato: ¿cómo debo ignorar/manejar espacios en blanco en el XSLT?
- 29. Transformar un NSAttributedString en texto sin formato
- 30. Conversión/análisis programático de código LaTeX a texto sin formato
Fui con una solución de línea de comandos – Tim