Lo mismo se preguntó hace 2,5 años en Downloading a web page and all of its resource files in Python pero no da respuesta y el tema "por favor, consulte el tema relacionado" realmente no es lo mismo.Equivalente a wget en Python para descargar sitio web y recursos
Quiero descargar todo en una página para que sea posible verlo solo desde los archivos.
El comando
wget --page-requisitos --domains --html-extension = DOMINIO --no-padres---convert enlaces --restrict-file-nombres = ventanas
hace exactamente eso que necesito. Sin embargo, queremos poder vincularlo con otras cosas que deben ser portátiles, por lo que requiere que esté en Python.
He estado mirando Beautiful Soup, scrapy, varias arañas publicadas en todo el lugar, pero todas parecen tratar con la obtención de datos/enlaces de forma inteligente pero específica. Usar estos para hacer lo que quiero parece que requerirá mucho trabajo para tratar de encontrar todos los recursos, cuando estoy seguro de que debe haber una manera fácil.
muchas gracias
de importación ('http://www.somesite.com/file .whatever ',' filename que se descargará como ') – CR0SS0V3R
así sé que puedo descargar un archivo singular de esa manera, pero tendré que usar un rastreador y establecer muchas condiciones para encontrar todos los archivos que quiero (todo para poder ver una sección de un sitio web sin conexión). Debe haber algo acerca de ese sitio web de descargas y requisitos en Python? – Conrad
puede usar una función de análisis dentro de un for-loop para buscar enlaces dentro del archivo descargado (o leer desde cualquier lugar) – CR0SS0V3R