Tengo una tarea para descargar Gbs de datos de un sitio web. Los datos están en forma de archivos .gz, cada archivo tiene un tamaño de 45 MB.wget Vs urlretrieve of python
La manera más fácil de obtener los archivos es usar "wget -r -np -A url de archivos". Esto descargará los datos en un formato recursivo y reflejará el sitio web. La velocidad de descarga es muy alta 4mb/seg.
Pero, para jugar, también estaba usando python para construir mi urlparser.
La descarga a través de la recuperación url de Python es muy lenta, es posible 4 veces más lenta que wget. La tasa de descarga es de 500kb/seg. Uso HTMLParser para analizar las etiquetas href.
No estoy seguro de por qué sucede esto. ¿Hay alguna configuración para esto?
Gracias
¿Ha intentado comparar el uso de la CPU y la salida de tcpdump? –
¿Qué es tcpdump? ¿cómo conseguirlo? –
¡Ignoraría las velocidades de transferencia (megabytes/MB y megabits/Mb son completamente diferentes!) Y compararía los dos usando los comandos 'time wget http: // example.com/file' y' time python urlretrieve_downloader.py' – dbr