2011-08-09 53 views
45

Cómo extraer texto del documento PDF usando PHP?¿Cómo extraer texto del documento PDF?

(no puedo usar otras herramientas, no tengo acceso root)

he encontrado algunas funciones de trabajo para el texto sin formato, pero no manejan caracteres Unicode así:

http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html

+0

que han resuelto este? –

+0

¡el enlace no funciona! por favor rectifica! – cwiggo

+12

No veo por qué esta pregunta se considera fuera de tema, ya que es muy útil, incluso si puede atraer respuestas "obstinadas", siempre es mejor ver diferentes puntos de vista. Tiene muchos golpes también. – user3574492

Respuesta

43

Descargar el class.pdf2text.php @https://pastebin.com/dvwySU1a (Actualizado el 5 de abril de 2014) o http://www.phpclasses.org/browse/file/31030.html (requiere registro)

Código:

include('class.pdf2text.php'); 
$a = new PDF2Text(); 
$a->setFilename('filename.pdf'); 
$a->decodePDF(); 
echo $a->output(); 

La clase no funciona con todos los pdf que he probado, darle una oportunidad y es posible que tenga suerte :)


Si lo anterior no funciona, intente http://pdfparser.org/

+2

si aquí hay una tabla en un archivo pdf, entonces no lo muestra. Quiero extraer como se muestra en pdf también el texto de la imagen escaneada adjunta con pdf. alguna solución para eso? –

+0

Muchas gracias ... Esa clase es muy útil. En esto quiero solo una URL del pdf. ¿Alguna forma de encontrar eso ...? –

+0

La clase incluye un vaciado de memoria tampón de salida que puede provocar errores de "encabezados ya enviados". Aparentemente no hay efectos negativos si lo deshabilita (para cualquier tamaño razonable de documento). –

9

Sé que este tema es bastante antiguo, pero esta necesidad todavía está viva. He leído muchos documentos, foro y guión y construir una nueva avanzada que soporta PDF comprimido y sin comprimir:

https://gist.github.com/smalot/6183152

creo que sirve everone

+0

Parece que no está obteniendo resultados con su secuencia de comandos. ¿Tiene un PDF con el que podría probarse? –

+0

¡Esto funcionó para mí! Gracias – kakoma

+0

He encontrado uno bueno aquí: https://github.com/christian-vigh-phpclasses/PdfToText – dlofrodloh

Cuestiones relacionadas