¿Cómo puedo detener un CrawlSpider de scrapy y luego reanudo donde lo dejó?

Tengo un Scrapy CrawlSpider que tiene una lista muy grande de URL para rastrear. Me gustaría poder detenerlo, guardar el estado actual y reanudarlo más tarde sin tener que volver a empezar. ¿Hay alguna manera de lograr esto dentro del marco de Scrapy?¿Cómo puedo detener un CrawlSpider de scrapy y luego reanudo donde lo dejó?

Fuente

2011-09-05 Dave Forgac

a partir de Scrapy v 0.16 ahora soporta aquí: http://doc.scrapy.org/en/0.16/topics/jobs.html –

Hubo una pregunta sobre el ML hace tan sólo unos meses: http://groups.google.com/group/scrapy-users/browse_thread/thread/6a8df07daff723fc?pli=1

Cita Pablo:

No sólo estamos considerando, sino también a trabajar en él. Existen actualmente dos parches de trabajo en mi MQ que añadan esta funcionalidad en caso de que alguien quiere probar una primera vista previa (que necesitan para ser aplicado en orden): http://hg.scrapy.org/users/pablo/mq/file/tip/scheduler_single_spider .... http://hg.scrapy.org/users/pablo/mq/file/tip/persistent_scheduler.patch Para ejecutar una araña como antes (sin persistencia):
scrapy crawl thespider 
para ejecutar una araña almacenar planificador + dupefilter estado en un dir:
scrapy crawl thespider --set SCHEDULER_DIR=run1 
Durante el rastreo, que puede golpear^C para cancelar el rastreo y reanudarla más tarde con:
scrapy crawl thespider --set SCHEDULER_DIR=run1 
el nombre del ajuste SCHEDULER_DIR está obligado a cambiar antes del lanzamiento final , pero la idea será la misma - que se pasa un directorio donde persista el estado.

Fuente

2011-09-05 20:15:29 naeg

Debe usar JOBDIR no SCHEDULER_DIR (consulte la publicación de niko_gramophon a continuación). – Naijaba

Solo quería compartir esa característica que se incluye en la última versión de scrapy, pero el nombre del parámetro ha cambiado. Usted debe utilizar de esta manera:

scrapy rastreo thespider --set JOBDIR = run1

Más información aquí http://doc.scrapy.org/en/latest/topics/jobs.html#job-directory

Fuente

2013-04-12 09:55:44

@niko_gramphon, ¿sabes si esto confirma el estado dupefilter? y también, ¿necesitamos agregar código de vestuario si estamos escribiendo en un archivo csv y queremos simplemente reanudar usando el mismo archivo? Gracias. – x89a10

Scrapy ahora tiene la característica de trabajo para esto en su sitio documentado aquí:

aquí está el comando real:.

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

Fuente

2015-04-22 21:20:13

¿Cómo puedo detener un CrawlSpider de scrapy y luego reanudo donde lo dejó?

Respuesta

Cuestiones relacionadas