Estoy empezando con scrapy, y tengo el primer problema real. Está descargando imágenes. Entonces esta es mi araña.Descarga de imágenes con scrapy
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from example.items import ProductItem
from scrapy.utils.response import get_base_url
import re
class ProductSpider(CrawlSpider):
name = "product"
allowed_domains = ["domain.com"]
start_urls = [
"http://www.domain.com/category/supplies/accessories.do"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
items = []
sites = hxs.select('//td[@class="thumbtext"]')
number = 0
for site in sites:
item = ProductItem()
xpath = '//div[@class="thumb"]/img/@src'
item['image_urls'] = site.select(xpath).extract()[number]
item['image_urls'] = 'http://www.domain.com' + item['image_urls']
items.append(item)
number = number + 1
return items
Cuando cito ITEM_PIPELINES
y IMAGES_STORE
en settings.py
esta manera puedo obtener la URL correcta para la imagen que deseo descarga (copia pegada en el navegador para el check).
Pero cuando me dijeron ellos los que me sale error siguiente:
raise ValueError('Missing scheme in request url: %s' % self._url')
exceptions.ValueError: Missing scheme in request url:h
y no puedo descargar mis fotos.
He buscado todo el día y no encontré nada útil.
tienes una tubería para procesar las URL? ¿Registraste tu canalización en settings.py? http://doc.scrapy.org/en/latest/topics/images.html, es una gran referencia. ¿tiene los permisos adecuados para escribir en la ruta IMAGE_STORE? – dm03514
sí Hice todo lo que se dice, de hecho usé esa referencia pero aún así ... no – iblazevic