2009-11-23 16 views
5

¿Podría decirme cómo extraer contenido del documento PDF usando PHP? El formateo es el principal problema que estoy enfrentando aquí. Así que avíseme si hay formas de extraer contenido con el mismo formato y mostrarlo en un editor de texto en línea.extrayendo contenido del pdf usando PHP

Gracias

Respuesta

0

Por lo que puedo ver, es no posible convertir un PDF a HTML editable utilizando PHP sobre la marcha, conservando el formato. Hay una cantidad de aplicaciones de escritorio alrededor de las cuales todas intentan para extraer datos de archivos PDF con resultados a veces más, a veces menos confiables. Diría que esto no es posible de forma realista en este momento y que todo lo que puedes hacer es extraer texto sin formato con XPDF u otras herramientas de línea de comando.

Puede ser diferente con el nuevo formato PDF basado en XML, pero realmente todavía no sé nada al respecto.

Siéntase libre de probarme que estoy equivocado, por supuesto, estaría muy interesado si hubiera una solución.

1

Eche un vistazo a XPDF

supongo que se podría hacer

$text = shell_exec("pdftotext $pdffile"); 

Como para la visualización en un editor? Bueno, ¿qué editor? Para conservar algún tipo de información de formato, y suponiendo que el editor web se refiere al editor de HTML, puede convertirlo a HTML. Quizás haya otras herramientas disponibles, pero desde que uso xpdf encontré el convertidor this que está basado en xpdf.

Uso básico

pdftohtml -noframes -c test.pdf test.html 

conseguirlo en su editor favorito

echo file_get_contents('test.html'); 

Es posible que necesite para envolver las cosas dentro de funciones/clases PHP. Y es posible que desee agregar medidas de seguridad y otras cosas.

+0

Cualquier editor en línea desarrollado a medida para un sitio web. – jose

Cuestiones relacionadas