Acabo de instalar scrapy y seguí su simple dmoz tutorial que funciona. Solo busqué el manejo básico de archivos para python e intenté que el rastreador leyera una lista de URL de un archivo pero obtuve algunos errores. Probablemente esto sea incorrecto, pero le di una oportunidad. ¿Alguien podría mostrarme un ejemplo de cómo leer una lista de URL en scrapy? Gracias por adelantado.Scrapy ¿leyó la lista de URL del archivo para raspar?
from scrapy.spider import BaseSpider
class DmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
f = open("urls.txt")
start_urls = f
def parse(self, response):
filename = response.url.split("/")[-2]
open(filename, 'wb').write(response.body)
'readlines()' retiene los saltos de línea al final de cada línea. He enviado una edición que 'pegará()' las líneas nuevas y cerrará el archivo. –