Estoy tratando de leer una página web completa y asignarla a una variable, pero tengo problemas para hacerlo. La variable parece que solo puede contener las primeras 512 o más líneas del origen de la página.Cómo leer una página web completa en una variable
Intenté usar readlines() para simplemente imprimir todas las líneas de la fuente en la pantalla, y eso me dio la fuente en su totalidad, pero necesito poder analizarlo con expresiones regulares, así que debo almacenarlo en una variable de alguna manera. ¿Ayuda?
data = urllib2.urlopen(url)
print data
Solo me da aproximadamente 1/3 de la fuente.
data = urllib2.urlopen(url)
for lines in data.readlines()
print lines
Esto me da toda la fuente.
Como dije, necesito poder analizar el hilo con expresiones regulares, pero la parte que necesito no está en el primer 1/3 que puedo almacenar en mi variable.
posible duplicado de [Descargar página html y su contenido] (http://stackoverflow.com/questions/1825438/download-html-page-and-its-content) –