docx4j incluye code para crear un PDF a partir de un docx usando iText. También puede usar POI para convertir un documento a docx.
Hubo un momento en que apoyamos ambos métodos por igual (así como PDF a través de XHTML), pero decidimos centrarnos en XSL-FO.
Si es una opción, sería mucho mejor usar docx4j para convertir un docx a PDF a través de XSL-FO y FOP.
usarlo como así:
wordMLPackage = WordprocessingMLPackage.load(new java.io.File(inputfilepath));
// Set up font mapper
Mapper fontMapper = new IdentityPlusMapper();
wordMLPackage.setFontMapper(fontMapper);
// Example of mapping missing font Algerian to installed font Comic Sans MS
PhysicalFont font
= PhysicalFonts.getPhysicalFonts().get("Comic Sans MS");
fontMapper.getFontMappings().put("Algerian", font);
org.docx4j.convert.out.pdf.PdfConversion c
= new org.docx4j.convert.out.pdf.viaXSLFO.Conversion(wordMLPackage);
// = new org.docx4j.convert.out.pdf.viaIText.Conversion(wordMLPackage);
OutputStream os = new java.io.FileOutputStream(inputfilepath + ".pdf");
c.output(os);
Update Julio el año 2016
A partir de docx4j 3.3.0, PDF procesador comercial de Plutext es la opción por defecto de docx4j de docx a la conversión de PDF. Puede probar una demostración en línea en converter-eval.plutext.com
Si desea utilizar el docx existente para XSL-FO a PDF (u otro objetivo compatible con Apache FOP), simplemente agregue el jar docx4j-export-FO a su classpath .
De cualquier forma, para convertir docx a PDF, puede usar el método toPDF de la fachada Docx4J.
El viejo docx a PDF a través de código iText se puede encontrar en https://github.com/plutext/docx4j-export-FO/.../docx4j-extras/PdfViaIText/
No pude entrar en el proyecto Tika para analizar la palabra fils. Conozca cualquier otro proyecto para analizar el archivo de palabras o un ejemplo de proyecto/descripción cómo analizarlo usted mismo. Solo necesito formación e imágenes junto al texto normal en el archivo de palabras. – Ismet
¡Tika debería ser muy fácil de empezar! Simplemente toma el programa CLI de Tika y pasa el archivo de palabras a él, y obtendrás XHTML. Siéntase feliz con eso, luego comience a llamar a Java usted mismo. – Gagravarr