Quiero construir un rastreador web basado en Scrapy para capturar imágenes de noticias de varios sitios web del portal de noticias. Quiero este rastreador ser:¿Cómo construir un rastreador web basado en Scrapy para que funcione para siempre?
Ejecutar siempre
significa que será la publicación periódica volver a visitar algunas páginas del portal para obtener actualizaciones.
Programar las prioridades.
Asigne diferentes prioridades a diferentes tipos de URL.
Tema Multi traiga
He leído el documento Scrapy pero no he encontrado algo relacionado con lo que hice una lista (tal vez no soy lo suficientemente cuidadoso). ¿Hay alguien aquí que sepa cómo hacer eso? o simplemente da una idea/ejemplo al respecto. ¡Gracias!
Gracias! Según tengo entendido, las arañas parecen funcionar para trabajos "de una sola vez" (simplemente rastree todo lo especificado y salga). Entonces, ¿quieres decir si quiero un rastreador de larga duración? Debería escribir la aplicación yo mismo y llamar a araña para que haga el trabajo. No es fácil implementar la lógica de larga duración dentro de Scrapy mediante middleware u otra cosa, ¿verdad? – superb
Probablemente podría implementar la lógica re-spider en la capa de Spider Middleware, pero las primitivas no parecen adecuadas para eso y mi intuición es que estaría presionando la lógica de la capa de aplicación hacia abajo en el nivel de presentación (si puedo permitido hacer un uso incorrecto de la terminología OSI). http://doc.scrapy.org/topics/spider-middleware.html – msw
El enlace de middleware del programador, que ha proporcionado, no está funcionando ahora. –