¿Hay un paquete/biblioteca para Python que me permita abrir un PDF y buscar ciertas palabras en el texto?archivos PDF de minería de textos con Python?
5
A
Respuesta
11
Usando PyPdf2 puede usar el método extractText() para extraer texto en formato pdf y trabajar en él.
Actualización: Se modificó el texto para hacer referencia a PyPdf2, gracias a @Aditya Kumar para el aviso.
4
No creo que pueda hacerlo en un solo paso, pero ciertamente puede obtener el texto de un pdf con pdfminer. Luego puede aplicar cualquier búsqueda de texto a esa información recuperada.
Cuestiones relacionadas
- 1. Minería de textos, extracción de hechos, análisis semántico usando .Net
- 2. ¿Hay API para análisis/minería de textos en Java?
- 3. Minería de texto con PHP
- 4. Mostrar archivos PDF con python3
- 5. Conversión de PDF a HTML con Python
- 6. Generando archivos PDF con PHP
- 7. Fusionando archivos pdf con marcadores
- 8. Fusionando archivos PDF con ITextSharp
- 9. archivos PDF de impresión con PDFsharp
- 10. Lectura programática de archivos PDF en C#
- 11. Lea los archivos pdf con php
- 12. ¿Cómo obtener la diferencia de dos archivos PDF en python?
- 13. Generar un pdf con python
- 14. Generando pdf-latex con script de python
- 15. Fusionar archivos PDF
- 16. ASP.Net MVC: textos localizados con nueva línea?
- 17. Herramienta de minería de datos de Google
- 18. PDFBox: trabajando con archivos PDF muy grandes.
- 19. Indexando archivos PDF con Symfony usando Lucene
- 20. ¿Cómo puedo combinar archivos PDF con Perl?
- 21. Ruby: Lectura de archivos PDF
- 22. Cifrado de archivos con Python
- 23. Rellenar varios archivos PDF
- 24. desbloquear archivos PDF protegidos
- 25. ¿Extracción de títulos de archivos PDF?
- 26. Combinar archivos PDF C#
- 27. Comparación de algoritmos de minería de datos
- 28. Vista previa de archivos PDF y PowerPoint con Silverlight/Flash
- 29. Buscar a través de archivos PDF con PHP
- 30. ¿Cómo producir archivos pdf de QGraphicsScene con texto copiable?
@cartman: ¿tiene alguna idea de cómo trabajar con el hecho de que PyPdf no pone un espacio entre líneas? Por ejemplo, si una línea en el pdf decía 'hola' y luego la siguiente línea decía 'mundo', el texto que extraigo es 'helloworld' en lugar de 'hello world', que mata a cualquier minería de texto ... – sepiroth
Si recuerde correctamente, PyPdf lee algunas líneas nuevas en algunos PDF como '\ x00'. – PhilS
+1 para pyPdf: Es un módulo muy práctico, aunque esté un poco desactualizado para 2.6 (las fuentes están disponibles de todos modos, son solo algunas adaptaciones). – RedGlyph