2012-06-07 7 views
5

Ahora planeo usar scrapy en un enfoque más distribuido, y no estoy seguro si las arañas/tuberías/descargadores/programadores y el motor son todos alojados en procesos o hilos separados, ¿podría alguien compartir algunos información sobre esto? y podríamos cambiar el proceso/conteo de hilos para cada componente ? Sé que ahora hay dos configuraciones "CONCURRENT_REQUESTS" y "CONCURRENT_ITEMS", que determinarán los hilos concurrentes para los descargadores y tuberías , ¿verdad? y si quiero implementar spiders/ pipelines/downloaders en diferentes máquinas, necesito serializar los elementos/solicitudes/respuestas, ¿verdad? ¡Aprecia mucho por tus ayudas!Acerca del modelo de simultaneidad de scrapy

Gracias, Edward.

Respuesta

4

Scrapy es de rosca simple. Utiliza el Reactor pattern para lograr solicitudes de red concurrentes. Esto se hace usando el Marco Twisted.

Las personas que desean distribuir Scrapy generalmente intentan implementar algún marco de mensajería. Algunos use Redis, algunos otros try RabbitMQ

también echar un vistazo a Scrapyd

Cuestiones relacionadas