2011-09-05 4 views

Respuesta

6

Hubo una pregunta sobre el ML hace tan sólo unos meses: http://groups.google.com/group/scrapy-users/browse_thread/thread/6a8df07daff723fc?pli=1

Cita Pablo:

No sólo estamos considerando, sino también a trabajar en él. Existen actualmente dos parches de trabajo en mi MQ que añadan esta funcionalidad en caso de que alguien quiere probar una primera vista previa (que necesitan para ser aplicado en orden): http://hg.scrapy.org/users/pablo/mq/file/tip/scheduler_single_spider .... http://hg.scrapy.org/users/pablo/mq/file/tip/persistent_scheduler.patch Para ejecutar una araña como antes (sin persistencia):

scrapy crawl thespider 

para ejecutar una araña almacenar planificador + dupefilter estado en un dir:

scrapy crawl thespider --set SCHEDULER_DIR=run1 

Durante el rastreo, que puede golpear^C para cancelar el rastreo y reanudarla más tarde con:

scrapy crawl thespider --set SCHEDULER_DIR=run1 

el nombre del ajuste SCHEDULER_DIR está obligado a cambiar antes del lanzamiento final , pero la idea será la misma - que se pasa un directorio donde persista el estado.

+0

Debe usar JOBDIR no SCHEDULER_DIR (consulte la publicación de niko_gramophon a continuación). – Naijaba

8

Solo quería compartir esa característica que se incluye en la última versión de scrapy, pero el nombre del parámetro ha cambiado. Usted debe utilizar de esta manera:

scrapy rastreo thespider --set JOBDIR = run1

Más información aquí http://doc.scrapy.org/en/latest/topics/jobs.html#job-directory

+2

@niko_gramphon, ¿sabes si esto confirma el estado dupefilter? y también, ¿necesitamos agregar código de vestuario si estamos escribiendo en un archivo csv y queremos simplemente reanudar usando el mismo archivo? Gracias. – x89a10

2

Scrapy ahora tiene la característica de trabajo para esto en su sitio documentado aquí:

aquí está el comando real:.

scrapy crawl somespider -s JOBDIR=crawls/somespider-1 
Cuestiones relacionadas