Tengo una araña que escribí usando el marco de Scrapy. Tengo problemas para hacer que funcionen las tuberías. Tengo el siguiente código en mi pipelines.py:No se puede hacer que la tubería de Scrapy funcione
class FilePipeline(object):
def __init__(self):
self.file = open('items.txt', 'wb')
def process_item(self, item, spider):
line = item['title'] + '\n'
self.file.write(line)
return item
y mi CrawlSpider subclase tiene esta línea para activar la tubería para esta clase.
ITEM_PIPELINES = [
'event.pipelines.FilePipeline'
]
Sin embargo, cuando lo ejecuto usando
scrapy crawl my_spider
me sale una línea que dice
2010-11-03 20:24:06+0000 [scrapy] DEBUG: Enabled item pipelines:
sin tuberías (supongo que aquí es donde el registro debe ser la salida de ellos).
He intentado buscar en la documentación, pero no parece haber ningún ejemplo completo de un proyecto completo para ver si me he perdido algo.
¿Alguna sugerencia sobre qué probar a continuación? ¿o dónde buscar más documentación?
¿Tiene este código de proyecto alojado en github? – Medeiros
No, mi cliente puede haberlo puesto en algún lado, pero no es mi lugar para abrirlo, me temo. –
tuve que usar ITEM_PIPELINES como dict en lugar de una lista en el archivo de configuración –