2011-03-23 8 views
6

Me gustaría convertir un documento html o xhtml (preferiblemente con estilos) a formato Microsoft .doc y/o .docx.Convertir html a doc en java

Parece que hay muchos ejemplos para hacer esto al revés pero no he encontrado ningún ejemplo útil para convertir a formatos de documentos ms.

¿Puede alguien me punto a una API o proporcionar un ejemplo para hacer esto, por favor

Muchas gracias

+0

hace que desea tener un archivo .doc real o un archivo que se puede abrir con la palabra y/o modificada/impreso? –

+0

doc o docx real. Parece que probablemente sería más fácil crear un docx pero el documento proporcionaría una mejor compatibilidad con versiones anteriores – Edd

+0

Podría haber algo en la oficina abierta/libre para hacer esto – vickirk

Respuesta

2

docx4j 2.8.0 soporta la conversión de documentos XHTML y fragmentos de DOCX contenido . Divulgación: escribí parte del código.

+0

¿Puede proporcionarnos un poco más de información ...? Tengo muchas ganas de saber cómo hacer esto – Edd

+0

La publicación del blog http: //www.docx4java .org/blog/2012/05/docx4j-2-8-0-released/contiene enlaces al código de muestra. – JasonPlutext

0

Con el fin de trabajar con documentos de Microsoft Es probable que tenga que tomar una mirada más profunda a Apache's POI Library.

Sin embargo, crear archivos .doc con estilo desde (X) HTML requiere un poco de esfuerzo.

+0

De hecho, el PDI de Apache es prácticamente el único puerto de escala. No hace la conversión (que está muy, muy lejos de ser trivial), pero le permite crear documentos .doc. – AndyT

+0

Estoy buscando algo que realmente haga que el burro trabaje para mí. Algo que analizará y xhtml documentará y generará un documento doc o docx. – Edd

0

He estado pasando un poco de tiempo investigando docx4j. Parece proporcionar buenas maneras de crear documentos html desde docx, pero no puedo ver nada a la inversa.

Por el momento esto todavía se ve como el método más fácil ya que solo está trabajando con objetos jaxb (creo).

+0

He convertido el HTML de docx4j (a diferencia de cualquier bit anterior de HTML) en docx. Como resultado, hay algunas cosas en docx4j que te pueden ayudar: clases como org.docx4j.model.properties.run.Bold tienen constructores que toman un CSSValue. Otros bits no están allí (por ejemplo, el código que usa eso, el código para convertir una tabla HTML y el código para importar una imagen). – JasonPlutext

1

Sin embargo, otra solución sería utilizar jodconverter que parece HTML básico para la conversión doc ... no pretende hacerlo bien, aunque

+0

¿Encuentra algo que convierta ambos docx y docx en html? Por favor, muéstrame el código de muestra, si hay alguno? – user960567

+0

No he podido comprometerme con esto pero me temo – Edd

0

He probado docjx4j API 2.8.1 y funciona como una maravilla. Tenía ConvertinXHTMLinFile y funciona bien. Si alguien quiere el código lo publicaré.

Aquí está el enlace que me ayudó: ConvertInXHTMLFile