solo pensé y me preguntaba si es posible rastrear toda la web (¡como los más grandes!) En un solo servidor dedicado (como Core2Duo, 8gig ram, 750gb disco 100mbps) .guía para rastrear toda la web?
Me encontré con un documento donde se hizo esto ... pero no recuerdo el título de este artículo. fue como arrastrarse por toda la web en un solo servidor dedicado utilizando algún modelo estadístico.
De todas formas, imaginar a partir de la vuelta de 10.000 direcciones URL de semillas, y haciendo rastreo exhaustivo ....
es posible?
Estoy en necesidad de rastrear la web pero limitado a un servidor dedicado. ¿Cómo puedo hacer esto? ¿Ya hay una solución de código abierto?
por ejemplo, consulte este motor de búsqueda en tiempo real. http://crawlrapidshare.com los resultados son extremadamente buenos y recién actualizados ... ¿cómo están haciendo esto?
Le deseo mucha suerte en su viaje. –
Curioso ¿CUÁNTO TIEMPO tardaría en rastrear incluso el 50% de la red desde una sola máquina (incluso en una tubería FAT, los núcleos reales contienen gran cantidad de RAM y espacio en la HDD). ¿Cuánto tiempo? ¿Alguna proyección? –
google rastrea 4 mil millones de páginas por día y aún así no pueden rastrear toda la web. –