2008-12-11 12 views

Respuesta

2

Obviamente, no es una tarea fácil, el formato PDF es mucho más rico que uno de HTML (además de que hay que extraer imágenes y vincularlos, etc.).
La extracción de texto simple es mucho más simple (aunque no trivial ...).
Veo en la barra lateral de su pregunta una pregunta similar: Converting PDF to HTML with Python que apunta a una biblioteca (poppler, que aparentemente está escrita en C++, quizás se puede acceder con JNI/JNA) y a una pregunta relacionada que ofrece aún más respuestas.

Cuestiones relacionadas