Estoy buscando algo en Java para leer en documentos de Word para procesar su texto ... todo lo que necesito es texto, nada especial. Sé sobre Apache POI, sin embargo, no incluye soporte para DOCX en este momento, ¿hay algo por ahí?Leer documentos de Microsoft Word en texto sin formato (DOC, DOCX) en Java
Respuesta
Encontré un poco de Google OpenXML4J. Esto podría resolver su problema. No he usado esto antes, estoy seguro de que alguien en la comunidad tendrá una mejor idea.
Nota: esta es una pregunta duplicada. Esto tiene la solución más un poco de discusión. Link to the question.
Si no necesita información de formato, imágenes y otras cosas sofisticadas, entonces el trabajo es mucho más fácil. Solo unas 5 a 10 líneas de código funcionarán.
- Tratar DOCX como un archivo zip. Consiste en un grupo de archivos que incluye 'document.xml'. Use ZipInputStream y extraiga ese archivo solo. (¡puede usar su utilidad zip favorita y abrir docx y verlo usted mismo!)
- Utilice un analizador SAX y lea los contenidos entre el cuerpo del nodo/p/r/t - ¡de inmediato recibió el texto!
Esto es aplicable solo si necesita el texto solo.
Hola Joseph, ¿puedes escribir aquí el código corto? Sería de GRAN AYUDA para mí ... –
Puede probar docx4j; ver http://dev.plutext.org/svn/docx4j/trunk/docx4j/src/main/java/org/docx4j/TextUtils.java
Probar apache poi - puede manejar doc, docx, xls, xlsx, ppt, pptx.
Otra solución de nivel de producción es OpenOffice en modo sin cabeza que incluso se puede usar en un escenario del lado del servidor.
- 1. Creación de documentos de Microsoft Word (.docx) en Ruby
- 2. Convierte archivos Word doc o docx en archivos de texto?
- 3. cómo leer archivos .doc, .docx, .xls en android
- 4. Convertir el archivo de Word doc a docx en un servidor sin Word
- 5. convertir programáticamente word docx a doc sin utilizar la automatización ole
- 6. Java - Convertir archivo doc/docx en archivo chm
- 7. python convertir documentos de Microsoft Office a texto sin formato en Linux
- 8. Android Microsoft Office Library (.doc, .docx, .xls, .ppt, etc.)
- 9. Combinar documentos de Microsoft Word con TortoiseSVN
- 10. Determine si el documento es DOC o DOCX en la aplicación Java sin conocer su extensión
- 11. ¿Cómo se leía el archivo Doc o Docx en Java?
- 12. Cómo generar documentos de Microsoft Word usando Sphinx
- 13. Convertir html a doc en java
- 14. Generando documentos de Word con PHP
- 15. cómo limpiar microsoft html doc?
- 16. Renderizar un documento de Microsoft Word en una página web
- 17. ¿Cómo mostrar el DOC/DOCX de PDF o Word dentro de la ventana de WinForms?
- 18. ¿La mejor manera de exportar html a Word sin tener instalado MS Word?
- 19. ¿Cómo uso Apache POI para leer un archivo .DOC en Java para separar imágenes de texto?
- 20. Conversión de HTML a odt, doc, docx
- 21. Convertir programáticamente el archivo docx al doc.
- 22. Almacenamiento de Microsoft Word 97 documentos en la columna de SQL Server
- 23. ¿Cómo funciona el formato .doc?
- 24. Cómo leer información de metadatos de documentos docx?
- 25. Edición de documentos de Microsoft Word mediante programación
- 26. comparando programáticamente documentos de Word
- 27. ¿Puedo leer documentos en PDF o Word con Node.js?
- 28. RTF a texto sin formato en Java
- 29. ¿Abrir un archivo de Word protegido con contraseña en Java?
- 30. ¿Cuál es la mejor manera de analizar documentos de Microsoft Office y PDF?
¿Es razonable mantener ambas preguntas, dado que uno está preguntando sobre el formato Word doc y el otro Excel? Pueden ser dos subconjuntos de una especificación de formato de documento más grande, honestamente no lo sé. –
Creo que es un duplicado porque cada pregunta está preguntando sobre Office 2007 java api. La otra pregunta, en mi humilde opinión, responde el correo. :) – XanderLynn