Estamos diseñando un proyecto de raspado/análisis a gran escala. Básicamente, el script debe ir a través de una lista de páginas web, extraer el contenido de una etiqueta en particular y almacenarlo en una base de datos. ¿Qué idioma recomendaría para hacer esto a gran escala (decenas de millones de páginas?). .¿Qué tecnología para raspado/análisis a gran escala?
Estamos usando MongoDB para la base de datos, por lo que cualquier cosa con controladores MongoDB sólidos es una ventaja.
Hasta ahora, hemos estado usando (no me rio) PHP, curl, y Simple HTML DOM Parser, pero no creo que sea escalable a millones de páginas, especialmente porque PHP no tiene multithreading adecuado.
Necesitamos algo que sea fácil de desarrollar, que pueda ejecutarse en un servidor Linux, que tenga un analizador robusto HTML/DOM para extraer fácilmente esa etiqueta, y que pueda descargar millones de páginas web en un tiempo razonable. No estamos realmente buscando un rastreador web, porque no necesitamos seguir enlaces e indexar todo el contenido, solo tenemos que extraer una etiqueta de cada página en una lista.
Por cierto, NServiceBus proporciona (distribución, persistencia, seguridad, transacciones y fiabilidad para el trabajo en cola) - muestra: https://github.com/leblancmeneses/NWebHooks –