2009-02-28 54 views

Respuesta

13

Los ejemplos y el código de muestra en el sitio de apache son bastante buenos. Te recomiendo que comiences allí.

http://poi.apache.org/hwpf/quick-guide.html

Para obtener bits específicos de texto, primero crear un org.apache.poi.hwpf.HWPFDocument. Obtenga el rango con getRange(), luego obtenga párrafos de eso. A continuación, puede obtener texto y otras propiedades.

Here para obtener un ejemplo de cómo extraer una imagen. Here para la última revisión al momento de escribir esto.

Y, por supuesto, la Javadocs

Tenga en cuenta que, de acuerdo con el sitio PDI,

HWPF se encuentra todavía en el desarrollo temprano.

1

No es gratis (o incluso es barato!) Pero Aspose.Words debería ser capaz de hacer esto. Su descarga de evaluación le permitirá jugar con archivos pequeños.

¿Los archivos de destino también tienen que ser Documentos? Puede abrir los documentos en Office y guardarlos como HTML. Entonces la separación se vuelve trivial. RTF también es una opción viable, pero no puedo recomendar un buen analizador RTF fuera de mi cabeza.

Edit to say: Acabo de recordar otra posible solución: Jacob, pero necesitará una instancia de Office ejecutándose en la misma máquina. Es la abreviatura de Java COM Bridge y le permite hacer llamadas a las bibliotecas COM de Office para manipular los documentos. ¡Estoy seguro de que no es tan aterrador como podría parecer!

Cuestiones relacionadas