Quiero usar scrapy para rastrear páginas web. ¿Hay alguna manera de pasar la URL de inicio desde el terminal mismo?Cómo dar URL a scrapy para rastrear?
Se da en la documentation que, o bien el nombre de la araña o la dirección URL se puede dar, pero cuando me dé la URL que genera un error:
// nombre de mi araña es ejemplo, pero yo Estoy dando url en lugar de mi nombre de araña (Funciona bien si le doy el nombre de araña).
scrapy crawl example.com
ERROR:
File "/usr/local/lib/python2.7/dist-packages/Scrapy-0.14.1-py2.7.egg/scrapy/spidermanager.py", line 43, in create raise KeyError("Spider not found: %s" % spider_name) KeyError: 'Spider not found: example.com'
¿Cómo puedo hacer scrapy usar mi araña en la URL dada en la terminal ??
¿Se ha agregado example.com a los allowed_domains de su spider? –
sí example.com se agrega a allowed_domains. Lo que realmente quiero es dar start_url desde la línea de comandos. ¿Cómo puedo hacerlo? –