¿Cómo uso Apache POI para leer un archivo .DOC en Java para separar imágenes de texto?

Necesito leer un archivo .doc de Word de Java que tenga texto e imágenes. Necesito reconocer el texto de las imágenes & y separarlas en 2 archivos.¿Cómo uso Apache POI para leer un archivo .DOC en Java para separar imágenes de texto?

Recientemente he oído hablar de "Apache POI." ¿Cómo puedo usar Apache POI para leer archivos .doc de Word?

Fuente

2009-02-28 Anonymous

Los ejemplos y el código de muestra en el sitio de apache son bastante buenos. Te recomiendo que comiences allí.

http://poi.apache.org/hwpf/quick-guide.html

Para obtener bits específicos de texto, primero crear un org.apache.poi.hwpf.HWPFDocument. Obtenga el rango con getRange(), luego obtenga párrafos de eso. A continuación, puede obtener texto y otras propiedades.

Here para obtener un ejemplo de cómo extraer una imagen. Here para la última revisión al momento de escribir esto.

Y, por supuesto, la Javadocs

Tenga en cuenta que, de acuerdo con el sitio PDI,

HWPF se encuentra todavía en el desarrollo temprano.

Fuente

2009-02-28 06:07:22

No es gratis (o incluso es barato!) Pero Aspose.Words debería ser capaz de hacer esto. Su descarga de evaluación le permitirá jugar con archivos pequeños.

¿Los archivos de destino también tienen que ser Documentos? Puede abrir los documentos en Office y guardarlos como HTML. Entonces la separación se vuelve trivial. RTF también es una opción viable, pero no puedo recomendar un buen analizador RTF fuera de mi cabeza.

Edit to say: Acabo de recordar otra posible solución: Jacob, pero necesitará una instancia de Office ejecutándose en la misma máquina. Es la abreviatura de Java COM Bridge y le permite hacer llamadas a las bibliotecas COM de Office para manipular los documentos. ¡Estoy seguro de que no es tan aterrador como podría parecer!

Fuente

2009-02-28 07:34:22 banjollity

¿Cómo uso Apache POI para leer un archivo .DOC en Java para separar imágenes de texto?

Respuesta

Cuestiones relacionadas