Estoy escribiendo una araña en Python para rastrear un sitio. El problema es que necesito examinar alrededor de 2,5 millones de páginas, así que realmente podría usar algo de ayuda para optimizarlo para la velocidad.Escribiendo un Python Spider más rápido
Lo que tengo que hacer es examinar las páginas para un cierto número, y si se encuentra para grabar el enlace a la página. La araña es muy simple, solo necesita ordenar muchas páginas.
Soy completamente nuevo en Python, pero antes he usado Java y C++. Todavía tengo que comenzar a codificarlo, por lo que cualquier recomendación sobre bibliotecas o marcos para incluir sería genial. Cualquier consejo de optimización también es muy apreciado.
Su mejor apuesta para acelerar el proceso es mejorar la velocidad de conexión. Ese será su cuello de botella, no la velocidad de Python. – tzot