¿Cómo convierto un PDF a texto para poder analizar ese texto con PHP?

Tengo archivos PDF que en su mayoría son texto formateado y quiero analizar el texto con PHP. Me doy cuenta de que el PDF es binario, así que necesito una utilidad o una biblioteca para convertirlo en texto.¿Cómo convierto un PDF a texto para poder analizar ese texto con PHP?

¿Alguna recomendación?

Fuente

2011-06-23 T. Brian Jones

¿Qué consideraría "equivalente"? – Jon

¿Qué quieres decir? Para obtener los datos binarios del archivo PDF, 'file_get_contents()' funcionará bien. –

Si desea editar archivos PDF, echar un vistazo a esta pregunta: http://stackoverflow.com/questions/7364/pdf-editing-in-php – Mike

Terminé usando XPDF (que incluye pdftotext). Esto funciona muy bien y lo uso en producción para extraer texto de millones de archivos PDF que se cargan en nuestros servidores.

A continuación se muestra el proceso de instalación de Linux CentOS:

descargar la versión 3.03 desde aquí: http://foolabs.com/xpdf/download.html
alquitrán -zxvf xpdfbin-linux-3.03.tar.gz (extracto tar.gz)
crear directorios necesarios para instalar (todos o algunos de estos pueden existir ya)
- mkdir sudo/usr/local/man/
- sudo mkdir/usr/local/man/man1/
- sudo mkdir/usr/local/man/man5/
- sudo mkdir/usr/local/etc/xpdfrc/
mover archivos de las carpetas extraídas (CD en la carpeta donde xpdf era sólo descomprimido)
- mover todos los archivos ejecutables desde el directorio bin64 (xpdf, pdftotext ... todos los archivos) a/usr/local/bin/
- mover el archivo de ejemplo xpdfrc-a/usr/local/etc/xpdfrc (esto se puede usar tal cual)
- mueve las páginas del manual del directorio doc (* 0.1 a/usr/local/man/man1/& * 0.5 a/usr/local/man/man5 /)
xpdf debe ser instalado y listo para usar
puede eliminar el archivo descargado alquitrán.GZ archivo y la carpeta en la que se abrió la cremallera

Fuente

2012-11-06 05:38:58

No puede hacer eso con file_get_contents() porque los archivos PDF contienen solo datos binarios (sin texto sin formato). Para leer/modificar un archivo pdf, puede usar algunas bibliotecas de terceros. Echar un vistazo a:

Y no se olvide

http://php.net/manual/en/book.pdf.php

Fuente

2011-06-23 09:15:44 technology

El software de terceros puede volcar el contenido de un texto Archivo PDF, por ejemplo:

xdoc2txt (sólo para Windows, utilizado en los plugins WinMerge)
pdftotext, parte de Xpdf

Fuente

2011-06-23 09:32:20 Benoit

¿Cómo convierto un PDF a texto para poder analizar ese texto con PHP?

Respuesta

Cuestiones relacionadas