Estoy tratando de rozar un sitio web y volver a publicar los datos como un canal RSS. ¿Qué tan difícil es configurar esto con Google App Engine? Desventajas y ventajas con GAE. ¡Todas las recomendaciones y pautas son muy apreciadas!Web Scraping con Google App Engine
Respuesta
Google App Engine ofrece mucho más funcionalidad (y complejidad) de lo que será necesario si realmente todo lo que tendrá que hacer es volver a publicar algunos datos estructurados como RSS. Personalmente, usaría algo como Yahoo pipes para una tarea como esta.
Dicho eso ... si quieres/necesitas mojarte los pies con GAE, ¡adelante!
Más difícil de lo que sería en la mayoría de las otras tecnologías.
GAE puede tipo de hacer el lote programado cosas como esta ahora, pero en realidad no es para ese tipo de cosas. Elija prácticamente cualquier otro idioma y plataforma para esta tarea en particular, y hará que su vida sea mucho más fácil.
Trabajar con Google App Engine es bastante directo. Recomiendo pasar por el Getting Started guide. Es corto y simple y toca temas esenciales de GAE. Hay más pros y contras de los que enumeraré aquí.
Pros:
En general, App Engine está diseñado para aplicaciones web de alto tráfico que necesitan escalar. Además, está diseñado desde la perspectiva de un programador. Gran parte de los problemas de escalabilidad (optimización de bases de datos, administración de servidores, etc.) son tratados por Google. Habiendo dicho eso, creo que es una buena plataforma. Los ingenieros de Google todavía lo están desarrollando activamente, y la programación de tareas (una función que se solicitó durante mucho tiempo) se encuentra en el mapa de ruta actual.
Contras:
Quizás el mayor inconveniente en este momento es de nuevo la falta de apoyo oficial programación y las cuotas que se fijan actualmente para las cuentas gratuitas. Sin embargo, no puede quejarse mucho si es gratis. Actualmente solo admite Python como interfaz de programación (aunque pronto aparecerá un nuevo lenguaje [Java I predict]). Además, Python 2.6 (y 3.0 para el caso) aún no son compatibles. Además, Django 1.0 no es oficialmente compatible con App Engine (aunque puedes package Django 1.0 with your application).
Creo que BeautifulSoup podría funcionar con GAE, por lo que se manejan todas sus necesidades de raspado: D Además, GAE tiene una gran cosa. El único problema que creo que podría tener es no tener suficiente tiempo para obtener los datos (limitación de 30 segundos).
estoy trabajando en un mismo proyecto y he decidido que es más fácil para preparar los datos en otro servidor y empujarlos a GAE.
Es posible que también desee consultar Yahoo! Query Language (YQL)
- 1. Servicios web con Google App Engine
- 2. Google App Engine vs Amazon Web Services
- 3. autenticación en Google App Engine (página web)
- 4. Google App Engine Geohashing
- 5. Google App Engine Locking
- 6. ¿Google App Engine es compatible con ftp?
- 7. Google-app-engine NDB
- 8. yaml en Google App Engine con index.html
- 9. ClassNotFoundException con Google App Engine para Java
- 10. Google App Engine: get_or_create()?
- 11. Google App Engine
- 12. Google app engine & CDN
- 13. Técnicas de paginación con Google App Engine
- 14. OpenID para Google App Engine
- 15. Google App Engine en Google Apps Domain
- 16. Google App Engine en Silverlight
- 17. web.py en Google App Engine
- 18. Google App Engine JDO 3
- 19. Google Maps y Google App Engine
- 20. Google App Engine y dos.xml
- 21. Comentarios sobre disponibilidad con Google App Engine
- 22. GeoModel con Google App Engine - consultas
- 23. ¿Cómo usar sbt con Google App Engine?
- 24. ImportError en Google App Engine con lxml
- 25. Django en Google App Engine
- 26. debería dejar Google App Engine?
- 27. Jinja2 en Google App Engine
- 28. Google App Engine: módulo JSON
- 29. Google App Engine - Cookies seguras
- 30. Google App Engine: autenticación personalizada