Desarrollé algunas arañas en scrapy & Quiero probar las de la nube de Heroku. ¿Alguien tiene alguna idea sobre cómo desplegar una araña Scrapy en la nube de Heroku?Cómo desplegar una araña Scrapy en la nube de Heroku
Respuesta
Sí, es bastante fácil de implementar y ejecutar su araña Scrapy en Heroku.
Éstos son los pasos con un proyecto real Scrapy como ejemplo:
Clon del proyecto (tenga en cuenta que debe tener un archivo
requirements.txt
de Heroku a lo reconoce como un proyecto de Python):git clone https://github.com/scrapinghub/testspiders.git
Agregue cffi al archivo requirement.txt (por ejemplo, cffi == 1.1.0).
Crear la aplicación Heroku (esto añadirá un nuevo mando a distancia heroku GIT):
heroku create
implementar el proyecto (esto tardará un tiempo la primera vez, cuando la bala se construye):
git push heroku master
Ejecutar su araña:
heroku run scrapy crawl followall
Algunas notas:
- disco Heroku es efímero. Si desea almacenar los datos raspados en un lugar persistente, puede usar un S3 feed export (agregando
-o s3://mybucket/items.jl
) o usar un complemento (como MongoHQ o Redis To Go) y escribir una tubería para almacenar sus artículos allí - Sería Genial para ejecutar un servidor Scrapyd en Heroku, pero actualmente no es posible porque el módulo
sqlite3
(que requiere Scrapyd) no funciona en Heroku - Si desea una solución más sofisticada para implementar sus arañas Scrapy, considere configurar su propia araña Scrapyd server o usando un servicio alojado como Scrapy Cloud
Creo que 'heroku run' inicia un One-Off Dyno que dará como resultado un costo de más dinero. ¿Es esta la única opción? – elgehelge
@Helge one dynos no cuestan más por minuto que los dynos estándar. –
¡Puedes usar scrapy-heroku para ejecutar un servidor de Scrapyd en heroku! Ha estado funcionando bien para mí. https://github.com/dmclain/scrapy-heroku – arctelix
- 1. Creando una araña scrapy genérica
- 2. Uso de una araña de Scrapy para varios sitios web
- 3. Repetir una araña Scrapy en los datos almacenados
- 4. Scrapy araña no se encuentra el error
- 5. Error al desplegar en heroku
- 6. Forzar que mi araña scrapy deje de arrastrarse
- 7. Cómo incluir la url de inicio en la regla "permitir" en SgmlLinkExtractor utilizando una araña scrapy crawl
- 8. Cómo dar URL a scrapy para rastrear?
- 9. Scrapy: iniciando sesión en archivo y stdout simultáneamente, con nombres de araña
- 10. OpenCV en la nube
- 11. Python Scrapy, ¿cómo definir una tubería para un artículo?
- 12. Ejecutar múltiples arañas de scrapy a la vez usando scrapyd
- 13. Despliegue de Java ESBs en la nube
- 14. cómo implementar un elemento anidado en scrapy?
- 15. Desarrollando en la nube
- 16. Scrapy SgmlLinkExtractor pregunta
- 17. Valor de Scrapyd jobid dentro de la araña
- 18. AWS vs Azure para PHP. Factores que determinan en qué "nube" desplegar
- 19. Neo4j en la nube
- 20. scrapy codificación de texto
- 21. ¿Cómo diseñar una "araña web" con estado en Haskell?
- 22. envío de correo electrónico después de raspadura en scrapy
- 23. desplegar una aplicación sencilla prueba con Sinatra + + DataMapper Postgres + Heroku devuelve: Instalación do_sqlite3 (0.10.7) de error
- 24. Scrapy: ImportError: Copias módulo denominado
- 25. Tocar y desplegar una vista
- 26. Uso de varias arañas en el proyecto en Scrapy
- 27. Scrapy BaseSpider: ¿Cómo funciona?
- 28. ¿Qué es la computación en la nube?
- 29. URL de Scrapy Crawl en orden
- 30. Computación en la nube: ¿Qué se necesita para configurar una nube?
scrapy-heroku fue escrito específicamente para este propósito: http: //pypi.p ython.org/pypi/scrapy-heroku –