2009-12-10 15 views
12

Estoy tratando de encontrar una manera de buscar dentro de los archivos PDF. Encontré la clase PDF de PHP, pero parece que no puedo encontrar ninguna función para leer/buscar un filestream.Buscar a través de archivos PDF con PHP

Así, tan ingenuo como soy, intenté sencillo obtener una corriente usando file_get_contents(), es obvio que es un cifrado similar al de salida;)

Así que mi pregunta, ¿hay alguna manera de buscar a través de archivos PDF ? Estoy buscando soluciones de solo script/libre/de código abierto y no estoy comprando algún libraray comercial costoso.

Respuesta

11

XPDF?

Hay una publicación de blog here que puede ser de ayuda.

Parece que hay algún código here que podría ayudar: una clase simple que lee un PDF en texto plano. No estoy seguro de si es compatible con el descifrado.

También hay una serie de recursos en la documentación de PHP que pueden serle de ayuda. Click.

FPDF y FPDI también pueden ayudar. Probablemente su mejor apuesta después de algunas investigaciones. **

+0

¡Gracias, lo comprobaré mañana! +1 – Ben

+0

He revisado todos sus enlaces y descubrí que la clase mencionada no es compatible con el cifrado. Así que XPDF parece sobrado, ya que estoy trabajando en una máquina de Windows y tengo instalado xampp. Puse todos los archivos en el directorio x:/xampp/apache/bin/xpdf /. Pero no puedo ejecutar el comando mencionado en el blogpost que has enviado. ¿Alguna sugerencia sobre cómo configurar adecuadamente XPDF? (No sé mucho sobre servidores web ... ¿incluso puse los archivos en el directorio correcto?) – Ben

11

Trate this article por David Walsh

+0

Gracias por su rápida respuesta, lo leeré y lo intentaré. Te mantendré informado. – Ben

2

Un motor de búsqueda de PHP llamada Sphider tiene la opción de añadir la búsqueda de PDF a través de XPDF. A continuación, puede personalizar las plantillas de resultados para que encajen con el resto de su sitio (si corresponde).

+0

Esta opción aún requiere que se instalen otras bibliotecas. "Descargue e instale pdftotext y catdoc y establezca su ubicación (ruta) en conf.php" – jay

+0

catdoc solo es necesario para los archivos de MS-Office, pdftotext es parte de XPDF como lo mencioné y se menciona en las preguntas frecuentes, "Indexación en pdf y archivos de doc ". – akamike

+0

Gracias por su respuesta, le di +1 por su esfuerzo, pero no es algo que esté buscando. Gracias. – Ben

Cuestiones relacionadas