¿Tiene python alguna forma de descargar toda la página html y sus contenidos (imágenes, css) a la carpeta local dada una URL? Y actualizando el archivo html local para elegir contenido localmente.Descargar la página html y su contenido
Respuesta
Usted puede utilizar el módulo urllib
descargar URL individuales, pero esto sólo devolver los datos. No analizará el HTML y descargará automáticamente cosas como archivos e imágenes CSS.
Si desea descargar la página "completa" deberá analizar el HTML y encontrar las otras cosas que necesita descargar. Puede usar algo como Beautiful Soup para analizar el HTML que recupera.
This question tiene un código de ejemplo que hace exactamente eso.
Puede utilizar el urlib:
import urllib.request
opener = urllib.request.FancyURLopener({})
url = "http://stackoverflow.com/"
f = opener.open(url)
content = f.read()
Lo que estás buscando es una herramienta de duplicación. Si quieres uno en Python, PyPI enumera spider.py pero no tengo experiencia con él. Otros podrían ser mejores, pero no sé, uso 'wget', que admite getting the CSS y las imágenes. Esto probablemente hace lo que quiere (citando the manual)
recuperar sólo una página HTML, pero hacen asegurarse de que todos los elementos necesarios para la página que se mostrará, como las imágenes en línea y estilo externa hojas , también se descargan También haga asegúrese de que la página descargada haga referencia a los enlaces descargados.
wget -p --convert-links http://www.server.com/dir/page.html
- 1. Descargar contenido de la página utilizando ajax jquery
- 2. Descargar html en python?
- 3. Página AJAX Descargar progreso
- 4. En Node.js/Express, ¿cómo "descargo" una página y obtengo su HTML?
- 5. HTML - Cambiar \ Actualizar el contenido de la página sin actualizar \ recargar la página
- 6. Encabezado y pie de página personalizados en la página html
- 7. cuerpo HTML es más pequeño que su contenido
- 8. Descargar CSS de la página web
- 9. ¿Descargar archivo de imagen de la fuente de la página HTML usando Python?
- 10. Contenido central de la página web
- 11. obtener contenido html de una página con Silverlight
- 12. página HTML con el contenido recuperado a través de AJAX
- 13. Javascript: descargar datos al archivo del contenido dentro de la página
- 14. Guardar contenido de página completa con Selenium
- 15. Cómo evitar que un div y su contenido se impriman
- 16. Llamada de evento antes de descargar la página
- 17. Descargar js generado html con C#
- 18. Servidores separados para servir la aplicación django y su contenido?
- 19. ¿Cómo puedo modificar todo el contenido de la página ASP.NET justo antes de su salida?
- 20. ¿Cómo puedo hacer que la ventana emergente modal desplace su contenido con la página?
- 21. ruby on rails expresión regular para eliminar etiquetas html y su contenido del texto
- 22. ¿Cómo puedo eliminar un elemento html y su contenido utilizando expresiones regulares
- 23. Descargar applet de java de la página web
- 24. hallazgo en la página HTML
- 25. Borrar la página HTML con JavaScript
- 26. Desconectar la conexión Strophe en la página Descargar
- 27. php: descargar contenido variable como archivo
- 28. Extensión de Chrome: Descargar/exportar contenido creado "sobre la marcha"
- 29. Cómo habilitar 'wget' para descargar todo el contenido de HTML con Javascript
- 30. ¿Cómo descargar un javascript de un html?
que sólo aparece para descargar una página teniendo en cuenta los códigos de respuesta HTTP; en realidad no descarga los recursos de la página a menos que me falta algo. – bdeniker