¿Hay alguna biblioteca de Java para convertir documentos de pdf a html?

Se preferirá la implementación de código abierto.¿Hay alguna biblioteca de Java para convertir documentos de pdf a html?

Fuente

2008-12-11 broundee

Me gustaría saber una solución para esto también. PDFBox puede hacerlo (http://java.dzone.com/articles/converting-pdf-html-using?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+javalobby%2Ffrontpage+%28Javalobby+%2F+Java+Zone%29), pero de una manera muy limitada. – Alp

Obviamente, no es una tarea fácil, el formato PDF es mucho más rico que uno de HTML (además de que hay que extraer imágenes y vincularlos, etc.).
La extracción de texto simple es mucho más simple (aunque no trivial ...).
Veo en la barra lateral de su pregunta una pregunta similar: Converting PDF to HTML with Python que apunta a una biblioteca (poppler, que aparentemente está escrita en C++, quizás se puede acceder con JNI/JNA) y a una pregunta relacionada que ofrece aún más respuestas.

Fuente

2008-12-11 12:59:35 PhiLho