2009-05-09 10 views
9

Deseo poder descargar una página y todos sus recursos asociados (imágenes, hojas de estilo, archivos de script, etc.) usando Python. Estoy (algo) familiarizado con urllib2 y sé cómo descargar URL individuales, pero antes de irme y empezar a hackear en BeautifulSoup + urllib2 quería estar seguro de que no había un equivalente de Python en "wget ​​--page-requisites http://www.google.com ".Descargando una página web y todos sus archivos de recursos en Python

Específicamente, estoy interesado en recopilar información estadística sobre cuánto tiempo lleva descargar una página web completa, incluidos todos los recursos.

Gracias Marcar

+0

posible duplicado de http://stackoverflow.com/questions/419235/anyone-know-of-a-good-python-based-web-crawler-that-i-could-use –

Respuesta

2

websucker.py no importa enlaces css. HTTrack.com no es python, es C/C++, pero es una utilidad buena y mantenida para descargar un sitio web para la navegación sin conexión.

http://www.mail-archive.com/[email protected]/msg13523.html [issue1124] WebChecker no analizar css "url @import"

Guido> Esto es esencialmente código de ejemplo no soportado y unmaintaned. ¡Siéntase libre para enviar un parche!

Cuestiones relacionadas