¿Cómo puedo extraer el contenido del texto (no imágenes) de un PDF, mientras que (más o menos) manteniendo el estilo y el diseño como Google Docs puede?cómo extraer el contenido del texto con formato PDF
Respuesta
para extraer el texto del PDF y obtener su posición puede utilizar PDFMiner. PDFMiner también puede exportar el PDF directamente en HTML manteniendo el texto en la posición correcta.
No sé su caso de uso, pero hay una gran cantidad de problemas que puede encontrar al hacer esto porque PDF es realmente orientada presentación y no de contenido orientado, el flujo de texto no es continua. Por lo tanto, si desea que el texto sea editable, no será una tarea fácil.
Si no tiene su corazón puesto en hacer esto con python, Ghostscript puede hacer esto por usted. Consulte pdf2ascii (un script que viene con GS) para obtener el texto sin formato. Los estilos son más complicados ya que se pueden especificar de diferentes maneras.
Si desea hacerlo igual que Google:
Google convierte el PDF a una imagen, y luego se superpone la imagen, donde el texto solía ser, con áreas highlightable JavaScript (que es aproximadamente igual que la magia vudú) . Las áreas parecen ser texto cuando se desplaza sobre ellas con el cursor, pero no lo son. Puede que esto no te ayude a saberlo, pero así es como lo hacen. Si desea realizar una ingeniería inversa, puede comenzar con https://www.mercurial-scm.org/ En la página de inicio, hacen lo mismo con JavaScript para hacer que el texto sea resaltable y se pueda copiar. Puede extraer el texto del PDF y encontrar su ubicación en la página con una de las bibliotecas mencionadas en las otras respuestas. Luego puede superponer una imagen extraída del archivo con el mismo estilo de áreas de JavaScript.
ah tienes razón, están usando imágenes, que no es lo que quiero porque necesito manipular el texto – hoju
Xpdf tiene una utilidad llamada PDFtoText que hace un gran trabajo. http://foolabs.com/xpdf/download.html
Acrobat Professional puede hacer el trabajo. En el menú "Archivo", elija exportar. Luego, elige Texto.
- 1. Extraer texto del PDF
- 2. ¿Cómo extraer texto del documento PDF?
- 3. C# Extraer texto del PDF utilizando PdfSharp
- 4. ¿Cómo extraer texto de un PDF?
- 5. extraer texto del pdf en Javascript
- 6. extrayendo contenido del pdf usando PHP
- 7. Extraer JSON del texto
- 8. Extraer texto de archivos PDF en C#
- 9. Cómo extraer URL del texto
- 10. Extraer texto de archivos PDF y de Word
- 11. ¿Cómo puedo extraer solo el texto del html
- 12. ¿Cómo extraer datos de un PDF?
- 13. Extraer imagen de PDF con/CCITTFaxDecode filter
- 14. extraer imágenes del pdf usando pdfbox
- 15. cómo mostrar contenido con html sin formato
- 16. Extraer información del texto sin formato y escribir en XML con DOM
- 17. Cómo extraer el texto del elemento seleccionado en la listaVer
- 18. cómo extraer el texto de un objeto Microsoft.IIs.PowerShell.Framework.ConfigurationElement
- 19. Cómo extraer el valor de campo del formulario PDF en PHP
- 20. cómo lograr extraer texto en rieles?
- 21. ¿Generar PDF desde ASP.NET desde contenido HTML/CSS sin formato?
- 22. ¿Cómo validar el tipo de contenido de archivo a pdf, palabra, excel y texto sin formato para clip?
- 23. php extraer texto/plano del cuerpo del correo
- 24. volcando el documento PDF (* .pdf) al texto?
- 25. extraer imagen vectorial de un archivo pdf
- 26. Cómo extraer notas y partes resaltadas de archivos PDF
- 27. Obtener texto sin formato desde una QLabel con texto enriquecido
- 28. Convierta texto sin formato a PDF en Python
- 29. ¿Cómo puedo generar un PDF con contenido de texto "real" en iOS?
- 30. ¿Cómo borrar el contenido del archivo de texto en Python?
Este paquete está disponible en ubuntu bajo el nombre 'python-pdfminer', y el comando es' pdf2txt' . – naught101