2009-06-05 46 views
20

¿Cuál es la mejor solución para convertir documentos PDF para que se vean en el navegador como HTML? El sitio tiene varios documentos PDF y el visitante puede hacer clic en ver como HTML y esto debe verse en la pantalla como un archivo HTML.Convertir PDF a HTML

Sitio web estándar que ejecuta PHP, Linux, Apache.

+0

¿Ha mirado en pdfjs? http://mozilla.github.io/pdf.js/ –

Respuesta

6

pdftohtml funciona bien: rápido, estable pero el resultado html es feo en el mejor de los casos. Lo he usado durante bastante tiempo para un sitio web que tiene muchos currículos de trabajo.

Sin embargo, es una buena solución para extraer contenido de texto.

me daría la scribd API una oportunidad

o el documento de aplicaciones API de Google. Google hace un gran trabajo y que muestran una conversión de archivos PDF

+4

Para documentos científicos, esto parece increíble: https://github.com/coolwanglu/pdf2htmlEX – JDonner

+0

@JDonner una advertencia: el HTML resultante el código es ilegible, generalmente no editable, y ocupa megabytes de espacio, al menos para el PDF que lo probé (2.8 MiB HTML para un PDF 674.5 KiB). Este tamaño grande lo hace particularmente malo para servir y hace una mala experiencia de lectura (desplazamiento lento, etc.). – Ruslan

+0

@JDonner el resultado se ve bien, pero html es básicamente inútil: separa palabras, incluye cada parte en varias etiquetas, extrae fuentes para cada tamaño (de la misma fuente) y las inserta haciendo que el archivo sea enorme (como dijo Ruslan). es mejor convertir PDF a una imagen PNG que usar pdf2htmlEX – andrei

4

¿Ha considerado guardar los datos PDF en una base de datos y luego crear dinámicamente el PDF o la página html en función de lo que seleccionen los visitantes?

4

Si tiene acceso a la línea de comandos en su proveedor de alojamiento, hay una utilidad llamada pdftohtml dentro del paquete poppler_utils.

http://poppler.freedesktop.org/

parece bastante fácil de usar, no lo han llamado desde el interior de PHP, pero debería funcionar.

+0

pdftohtml no conserva el estilo – andrei