2010-02-04 36 views

Respuesta

9

para extraer el texto del PDF y obtener su posición puede utilizar PDFMiner. PDFMiner también puede exportar el PDF directamente en HTML manteniendo el texto en la posición correcta.

No sé su caso de uso, pero hay una gran cantidad de problemas que puede encontrar al hacer esto porque PDF es realmente orientada presentación y no de contenido orientado, el flujo de texto no es continua. Por lo tanto, si desea que el texto sea editable, no será una tarea fácil.

+0

Este paquete está disponible en ubuntu bajo el nombre 'python-pdfminer', y el comando es' pdf2txt' . – naught101

3

Si no tiene su corazón puesto en hacer esto con python, Ghostscript puede hacer esto por usted. Consulte pdf2ascii (un script que viene con GS) para obtener el texto sin formato. Los estilos son más complicados ya que se pueden especificar de diferentes maneras.

4

Si desea hacerlo igual que Google:

Google convierte el PDF a una imagen, y luego se superpone la imagen, donde el texto solía ser, con áreas highlightable JavaScript (que es aproximadamente igual que la magia vudú) . Las áreas parecen ser texto cuando se desplaza sobre ellas con el cursor, pero no lo son. Puede que esto no te ayude a saberlo, pero así es como lo hacen. Si desea realizar una ingeniería inversa, puede comenzar con https://www.mercurial-scm.org/ En la página de inicio, hacen lo mismo con JavaScript para hacer que el texto sea resaltable y se pueda copiar. Puede extraer el texto del PDF y encontrar su ubicación en la página con una de las bibliotecas mencionadas en las otras respuestas. Luego puede superponer una imagen extraída del archivo con el mismo estilo de áreas de JavaScript.

+0

ah tienes razón, están usando imágenes, que no es lo que quiero porque necesito manipular el texto – hoju

3

Acrobat Professional puede hacer el trabajo. En el menú "Archivo", elija exportar. Luego, elige Texto.

Cuestiones relacionadas