es posible Sí, ya he construir una solución en AppEngine - wowprice
uso compartido todos los detalles aquí harán que mi respuesta larga,
Problema - Supongamos que quiero rastrear walmart.com, como sé que no puedo rastrear de una sola vez (millones de productos)
Solución - He diseñado mi araña para dividir la tarea en tareas más pequeñas.
- Paso 1: trabajo de entrada para walmart.com, el programador de tareas creará una tarea.
- Paso 2: Mi araña escogerá el trabajo y su aviso de que su página de índice, ahora mi araña creará más trabajos como página de inicio como página de categorías, ahora ingresa 20 tareas más
- Paso 3: ahora spider make more trabajos más pequeños para subcategorías, y continuará hasta que obtenga la página de la lista de productos y cree una tarea para ella.
- Paso 4: para las páginas de la lista de productos, es obtener el producto y realizar una llamada a las tiendas de los datos del producto y en el caso de la página siguiente, hará una tarea para rastrearlos.
Ventajas - Nos puede rastrear sin romper las reglas 30 segundos, y la velocidad de rastreo voluntad depende máquina de back-end, proporcionará paralelo de arrastre por un solo objetivo.
posible duplicado de [tareas de antecedentes sobre appengine] (http://stackoverflow.com/questions/149307/background-tasks-on-appengine) –