2009-06-16 33 views
41

Tengo un archivo PDF grande que es un mapa del piso de un edificio. Tiene capas para todos los muebles de oficina, incluidos los cuadros de texto de la ubicación del asiento.Lea los archivos pdf con php

Mi objetivo es leer este archivo con PHP, buscar capas de texto en el documento, obtener sus contenidos y coordenadas en el archivo. De esta forma puedo mapear las ubicaciones de los asientos -> coordenadas x/y.

¿Hay alguna forma de hacerlo a través de PHP? (O incluso Ruby o Python si eso es lo que necesita)

+0

¿El código de marcado contiene "coordenadas"? Si no, puede buscar todo el tiempo que desee. PHP no puede ubicar las coordenadas de los píxeles de un archivo pdf. Intente explicar su "problema" un poco más detallada, tal vez mediante el uso de una imagen, etc. –

+0

Hola, ¿encontró una respuesta a su pregunta? Porque me he quedado con el problema de simillar y no puedo encontrar una solución ... Y si encuentras uno, ¿podrías decirme cómo obtuviste las coordenadas de las imágenes del archivo pdf? .. –

+0

@PigalevPavel Disculpa, No lo hice :( –

Respuesta

27

Salida FPDF (con FPDI):

http://www.fpdf.org/

http://www.setasign.de/products/pdf-php-solutions/fpdi/

Estos le permitirá abrir un PDF y añadir contenido a ella en PHP. Supongo que también puede usar su funcionalidad para buscar en el contenido existente los valores que necesita.

Otra posible biblioteca es TCPDF: http://www.tecnick.com/public/code/cp_dpage.php?aiocp_dp=tcpdf

actualización para añadir una biblioteca más moderna: PDF Parser

+2

En cuanto a analizar el pdf en php, fpdf se queda corto mientras que el pdfparser http: //www.pdfparser.org/documentation tiene una interfaz de programación limpia e intuitiva – Nate

+2

hola @Nate! Agregué la biblioteca del analizador de PDF a la respuesta. Gracias por el voto negativo de una respuesta de 6 años! – Jay

+0

Es por eso que "principalmente basado en opinión" En primer lugar, las preguntas están fuera de los límites aquí. Además, no creo que haya nada malo en expresar una opinión sobre una pregunta de hace 6 años, pero estoy de acuerdo en este caso, el voto negativo es tonto. Así que te elevé:) –

0

Hmm ... no es exactamente php, pero puede llamar a un programa de php para convertir el pdf a un archivo html temporal y luego analizar el archivo resultante con php. Yo he hecho algo similar para un proyecto mío y este es el programa que utilicé:

PdfToHtml

Lo bueno de este programa es que va a escupir los elementos de texto en < div> etiquetas con posición absoluta coordenadas Parece que esto es exactamente lo que estás tratando de hacer.

+1

Hola, ¿puedes publicar un código de muestra de cómo lograr tus resultados? No pude encontrar la documentación adecuada. Sería genial. – Tarik

19

Hay una biblioteca php (pdfparser) que hace exactamente lo que desea.

sitio web del proyecto

http://www.pdfparser.org/

github

https://github.com/smalot/pdfparser

página de prueba/api

http://www.pdfparser.org/demo

Después de incluir pdfparser en su proyecto puede obtener todo el texto de mypdf.pdf así:

<?php 
$parser = new \installpath\PdfParser\Parser(); 
$pdf = $parser->parseFile('mypdf.pdf'); 
$text = $pdf->getText(); 
echo $text;//all text from mypdf.pdf 

?> 

Simular que pueda obtener los metadatos del pdf como wel como conseguir los objetos PDF (por ejemplo, imágenes) .

+0

Esto realmente se ve prometedor :) Casi tres años después - ¡gracias! :) –