Descargando una página web y todos sus archivos de recursos en Python

Deseo poder descargar una página y todos sus recursos asociados (imágenes, hojas de estilo, archivos de script, etc.) usando Python. Estoy (algo) familiarizado con urllib2 y sé cómo descargar URL individuales, pero antes de irme y empezar a hackear en BeautifulSoup + urllib2 quería estar seguro de que no había un equivalente de Python en "wget --page-requisites http://www.google.com ".Descargando una página web y todos sus archivos de recursos en Python

Específicamente, estoy interesado en recopilar información estadística sobre cuánto tiempo lleva descargar una página web completa, incluidos todos los recursos.

Gracias Marcar

Fuente

2009-05-09 Mark Ransom

posible duplicado de http://stackoverflow.com/questions/419235/anyone-know-of-a-good-python-based-web-crawler-that-i-could-use –

Websucker? Ver http://effbot.org/zone/websucker.htm

Fuente

2009-05-09 21:31:08 RichieHindle

websucker.py no importa enlaces css. HTTrack.com no es python, es C/C++, pero es una utilidad buena y mantenida para descargar un sitio web para la navegación sin conexión.

http://www.mail-archive.com/[email protected]/msg13523.html [issue1124] WebChecker no analizar css "url @import"

Guido> Esto es esencialmente código de ejemplo no soportado y unmaintaned. ¡Siéntase libre para enviar un parche!

Fuente

2010-05-14 21:22:34 jamshid

Descargando una página web y todos sus archivos de recursos en Python

Respuesta

Cuestiones relacionadas