Terminé usando XPDF (que incluye pdftotext). Esto funciona muy bien y lo uso en producción para extraer texto de millones de archivos PDF que se cargan en nuestros servidores.
A continuación se muestra el proceso de instalación de Linux CentOS:
- descargar la versión 3.03 desde aquí: http://foolabs.com/xpdf/download.html
- alquitrán -zxvf xpdfbin-linux-3.03.tar.gz (extracto tar.gz)
- crear directorios necesarios para instalar (todos o algunos de estos pueden existir ya)
- mkdir sudo/usr/local/man/
- sudo mkdir/usr/local/man/man1/
- sudo mkdir/usr/local/man/man5/
- sudo mkdir/usr/local/etc/xpdfrc/
- mover archivos de las carpetas extraídas (CD en la carpeta donde xpdf era sólo descomprimido)
- mover todos los archivos ejecutables desde el directorio bin64 (xpdf, pdftotext ... todos los archivos) a/usr/local/bin/
- mover el archivo de ejemplo xpdfrc-a/usr/local/etc/xpdfrc (esto se puede usar tal cual)
- mueve las páginas del manual del directorio doc (* 0.1 a/usr/local/man/man1/& * 0.5 a/usr/local/man/man5 /)
- xpdf debe ser instalado y listo para usar
- puede eliminar el archivo descargado alquitrán.GZ archivo y la carpeta en la que se abrió la cremallera
¿Qué consideraría "equivalente"? – Jon
¿Qué quieres decir? Para obtener los datos binarios del archivo PDF, 'file_get_contents()' funcionará bien. –
Si desea editar archivos PDF, echar un vistazo a esta pregunta: http://stackoverflow.com/questions/7364/pdf-editing-in-php – Mike