Tengo un código para leer de un archivo pdf. ¿Hay alguna manera de leer línea por línea desde el archivo pdf (no páginas) usando Pypdf, Python 2.6, en Windows?¿Cómo leer línea por línea en archivo pdf usando PyPdf?
Este es el código para la lectura de las páginas PDF:
import pyPdf
def getPDFContent(path):
content = ""
num_pages = 10
p = file(path, "rb")
pdf = pyPdf.PdfFileReader(p)
for i in range(0, num_pages):
content += pdf.getPage(i).extractText() + "\n"
content = " ".join(content.replace(u"\xa0", " ").strip().split())
return content
Actualización:
El código de llamada es la siguiente:
f= open('test.txt','w')
pdfl = getPDFContent("test.pdf").encode("ascii", "ignore")
f.write(pdfl)
f.close()
sí, pero en el que podía, pero esto en mi código, porque no puedo hacer que funcione? –
mismo problema, esto no es trabajo, dame toda la página, solo quiero línea por línea :) –
este código no funcionaba ... pdf.getPage (i) .extractText() obtiene datos vacíos –