cómo extraer el contenido del texto con formato PDF

15

¿Cómo puedo extraer el contenido del texto (no imágenes) de un PDF, mientras que (más o menos) manteniendo el estilo y el diseño como Google Docs puede?cómo extraer el contenido del texto con formato PDF

Fuente

2010-02-04 hoju

9

para extraer el texto del PDF y obtener su posición puede utilizar PDFMiner. PDFMiner también puede exportar el PDF directamente en HTML manteniendo el texto en la posición correcta.

No sé su caso de uso, pero hay una gran cantidad de problemas que puede encontrar al hacer esto porque PDF es realmente orientada presentación y no de contenido orientado, el flujo de texto no es continua. Por lo tanto, si desea que el texto sea editable, no será una tarea fácil.

Fuente

2010-02-04 02:13:20 Etienne

+0

Este paquete está disponible en ubuntu bajo el nombre 'python-pdfminer', y el comando es' pdf2txt' . – naught101

6

Ha intentado pyPDF o ReportLab bibliotecas PDF? Personalmente no los he usado, pero puedes probarlos. here es útil también

Fuente

2010-02-04 01:04:06 ghostdog74

3

Si no tiene su corazón puesto en hacer esto con python, Ghostscript puede hacer esto por usted. Consulte pdf2ascii (un script que viene con GS) para obtener el texto sin formato. Los estilos son más complicados ya que se pueden especificar de diferentes maneras.

Fuente

2010-02-04 01:23:43

4

Si desea hacerlo igual que Google:

Google convierte el PDF a una imagen, y luego se superpone la imagen, donde el texto solía ser, con áreas highlightable JavaScript (que es aproximadamente igual que la magia vudú) . Las áreas parecen ser texto cuando se desplaza sobre ellas con el cursor, pero no lo son. Puede que esto no te ayude a saberlo, pero así es como lo hacen. Si desea realizar una ingeniería inversa, puede comenzar con https://www.mercurial-scm.org/ En la página de inicio, hacen lo mismo con JavaScript para hacer que el texto sea resaltable y se pueda copiar. Puede extraer el texto del PDF y encontrar su ubicación en la página con una de las bibliotecas mencionadas en las otras respuestas. Luego puede superponer una imagen extraída del archivo con el mismo estilo de áreas de JavaScript.

Fuente

2010-02-04 01:25:54 orokusaki

+0

ah tienes razón, están usando imágenes, que no es lo que quiero porque necesito manipular el texto – hoju

4

Xpdf tiene una utilidad llamada PDFtoText que hace un gran trabajo. http://foolabs.com/xpdf/download.html

Fuente

2011-07-05 17:21:56 chrisfs

3

Acrobat Professional puede hacer el trabajo. En el menú "Archivo", elija exportar. Luego, elige Texto.

Fuente

2012-10-24 19:39:41 Shawn

cómo extraer el contenido del texto con formato PDF

Respuesta

Cuestiones relacionadas