2011-11-22 13 views

Respuesta

4

yo diría que tiene dos opciones, tanto basado en Apache POI

Uno es usar Apache Tika. Tika es un juego de herramientas de extracción de texto y metadatos, y es capaz de extraer texto bastante rico de documentos de Word haciendo llamadas apropiadas a POI. El resultado es que Tika le dará XML de estilo XHTML para el contenido de su documento de Word.

La otra opción es utilizar una clase que se agregó recientemente a POI, que es WordToHtmlConverter. Esto convertirá su documento de Word en HTML para usted, y generalmente conservará un poco más de la estructura y el formato que Tika.

Dependiendo del tipo de XML que esperas obtener, una de estas debería ser una buena apuesta para ti. Sugeriría que pruebes ambos con algunos de tus archivos de muestra y veas cuál es el más adecuado para tu dominio problemático y tus necesidades.

+0

WordToHtmlConverter, whichi archivo Jar esta clase. Creo que todavía está en las primeras etapas de desarrollo y no se lanzó como un archivo Jar? – user2434

+0

Está en el archivo jar Scratchpad. Querrá obtener la versión beta más reciente, 3.8 Beta 4, y usar el jar principal de PDI + jarra de scratchpad. – Gagravarr

5

El propósito del subproyecto HWPF es exactamente eso: procesar archivos de Word.

http://poi.apache.org/hwpf/index.html

Luego, para convertir los datos en XML que tiene que construir XML por las formas ususal: Stax, JDOM, XStream ...

Apache ofrece una Guía rápida:

http://poi.apache.org/hwpf/quick-guide.html

y también he encontrado que:

http://sanjaal.com/java/tag/simple-java-tutorial-to-read-microsoft-document-in-java/

Si desea procesar los archivos docx, es posible que desee ver en el subproyecto OpenXML4J:

http://poi.apache.org/oxml4j/index.html

Cuestiones relacionadas