Tengo una pregunta de dos partes.Siendo un buen ciudadano y raspando la red
En primer lugar, estoy escribiendo un raspador web basado en el CrawlSpider araña en Scrapy. Estoy tratando de robar un sitio web que tiene muchos miles (posibles en los cientos de miles) de registros. Estos registros están enterrados 2-3 capas hacia abajo desde la página de inicio. Así que, básicamente, tengo el inicio araña en una página determinada, rastreo hasta que encuentre un tipo específico de registro, y luego analizar el html. Lo que me pregunto es qué métodos existen para evitar que mi araña sobrecargue el sitio. ¿Hay posiblemente una manera de hacer las cosas de forma incremental o poner una pausa entre las diferentes solicitudes?
En segundo lugar, y relacionado, ¿hay algún método con Scrapy para probar un rastreador sin poner demasiado estrés en un sitio? Sé que puedes matar el programa mientras se ejecuta, pero ¿hay alguna manera de detener el script después de tocar algo como la primera página que tiene la información que quiero borrar?
Cualquier consejo o recurso sería muy apreciado.
Impresionante. Muchas gracias. – user1074057