2009-11-04 40 views

Respuesta

11

Usando PyPdf2 puede usar el método extractText() para extraer texto en formato pdf y trabajar en él.

Actualización: Se modificó el texto para hacer referencia a PyPdf2, gracias a @Aditya Kumar para el aviso.

+0

@cartman: ¿tiene alguna idea de cómo trabajar con el hecho de que PyPdf no pone un espacio entre líneas? Por ejemplo, si una línea en el pdf decía 'hola' y luego la siguiente línea decía 'mundo', el texto que extraigo es 'helloworld' en lugar de 'hello world', que mata a cualquier minería de texto ... – sepiroth

+0

Si recuerde correctamente, PyPdf lee algunas líneas nuevas en algunos PDF como '\ x00'. – PhilS

+0

+1 para pyPdf: Es un módulo muy práctico, aunque esté un poco desactualizado para 2.6 (las fuentes están disponibles de todos modos, son solo algunas adaptaciones). – RedGlyph

4

No creo que pueda hacerlo en un solo paso, pero ciertamente puede obtener el texto de un pdf con pdfminer. Luego puede aplicar cualquier búsqueda de texto a esa información recuperada.