Me preguntaba si alguien alguna vez intentó extraer/seguir enlaces de elementos RSS usando SgmlLinkExtractor/CrawlSpider. No puedo conseguir que funcione ...Scrapy - Seguir enlaces RSS
estoy usando la siguiente regla:
rules = ( Rule(SgmlLinkExtractor(tags=('link',), attrs=False), follow=True, callback='parse_article'), )
(teniendo en cuenta que los enlaces RSS se encuentran en la etiquetaenlace).
No estoy seguro de cómo decir SgmlLinkExtractor para extraer el texto() de el enlace y no para buscar los atributos ...
Cualquier ayuda es bienvenida, Gracias de antemano
¿podría explicar la diferencia entre el uso de normas y la aplicación de la extracción CrawlSpider vínculo personalizado en la devolución de llamada? He estado luchando por un tiempo captando la diferencia, y después de varias lecturas para documentar ... todavía nada. Voy con tu método debido a una mala experiencia pasada usando reglas, pero solo quiero saber exactamente por qué. T.I.A – romeroqj
Hay un ['' 'XMLFeedSpider'''] (https://scrapy.readthedocs.org/en/latest/topics/spiders.html?highlight=rule#xmlfeedspider-example) que se puede usar hoy en día. – opyate