archivos PDF de minería de textos con Python?

¿Hay un paquete/biblioteca para Python que me permita abrir un PDF y buscar ciertas palabras en el texto?archivos PDF de minería de textos con Python?

Fuente

2009-11-04 sepiroth

Usando PyPdf2 puede usar el método extractText() para extraer texto en formato pdf y trabajar en él.

Actualización: Se modificó el texto para hacer referencia a PyPdf2, gracias a @Aditya Kumar para el aviso.

Fuente

2009-11-04 07:39:34 ismail

@cartman: ¿tiene alguna idea de cómo trabajar con el hecho de que PyPdf no pone un espacio entre líneas? Por ejemplo, si una línea en el pdf decía 'hola' y luego la siguiente línea decía 'mundo', el texto que extraigo es 'helloworld' en lugar de 'hello world', que mata a cualquier minería de texto ... – sepiroth

Si recuerde correctamente, PyPdf lee algunas líneas nuevas en algunos PDF como '\ x00'. – PhilS

+1 para pyPdf: Es un módulo muy práctico, aunque esté un poco desactualizado para 2.6 (las fuentes están disponibles de todos modos, son solo algunas adaptaciones). – RedGlyph

No creo que pueda hacerlo en un solo paso, pero ciertamente puede obtener el texto de un pdf con pdfminer. Luego puede aplicar cualquier búsqueda de texto a esa información recuperada.

Fuente

2009-11-04 07:38:39 shylent

archivos PDF de minería de textos con Python?

Respuesta

Cuestiones relacionadas