¿Es posible analizar MS Word utilizando Apache POI y convertirlo a XML?

¿Es posible convertir un archivo MS Word a XML utilizando Apache POI?¿Es posible analizar MS Word utilizando Apache POI y convertirlo a XML?

Si es así, ¿me puede indicar algún tutorial para hacerlo?

Fuente

2011-11-22 user2434

yo diría que tiene dos opciones, tanto basado en Apache POI

Uno es usar Apache Tika. Tika es un juego de herramientas de extracción de texto y metadatos, y es capaz de extraer texto bastante rico de documentos de Word haciendo llamadas apropiadas a POI. El resultado es que Tika le dará XML de estilo XHTML para el contenido de su documento de Word.

La otra opción es utilizar una clase que se agregó recientemente a POI, que es WordToHtmlConverter. Esto convertirá su documento de Word en HTML para usted, y generalmente conservará un poco más de la estructura y el formato que Tika.

Dependiendo del tipo de XML que esperas obtener, una de estas debería ser una buena apuesta para ti. Sugeriría que pruebes ambos con algunos de tus archivos de muestra y veas cuál es el más adecuado para tu dominio problemático y tus necesidades.

Fuente

2011-11-22 16:48:22 Gagravarr

WordToHtmlConverter, whichi archivo Jar esta clase. Creo que todavía está en las primeras etapas de desarrollo y no se lanzó como un archivo Jar? – user2434

Está en el archivo jar Scratchpad. Querrá obtener la versión beta más reciente, 3.8 Beta 4, y usar el jar principal de PDI + jarra de scratchpad. – Gagravarr