2009-04-07 12 views
12

Quiero rastrear cosas específicas. Específicamente eventos que se llevan a cabo como conciertos, películas, inauguraciones de galerías de arte, etc., etc. Cualquier cosa que uno pueda pasar tiempo yendo.Rastreo de Internet

¿Cómo implemento un rastreador?

me han oído hablar de Grub (grub.org -> no registrado) y Heritix (http://crawler.archive.org/)

¿Hay otros?

¿Qué opiniones tiene todo el mundo?

-Jason

Respuesta

3

Creo que la parte del webcrawler será la parte más fácil de la tarea. La parte difícil será decidir qué sitios visitar y cómo descubrir eventos en los sitios que desea visitar. Tal vez quiera consultar sobre el uso del Google o Yahoo API para obtener los datos que desea. Ya han hecho el trabajo de rastrear muchas páginas en Internet; puedes enfocarte en el, en mi opinión, un problema mucho más difícil de cribar los datos para obtener los eventos que estás buscando.

1

Si descubre que el rastreo de Internet se convierte en una tarea importante, puede considerar construir RSS aggregator y suscribirse a feeds RSS para sitios de eventos populares como craigslist y upcoming.org.

Cada uno de estos sitios ofrece eventos localizados y con capacidad de búsqueda. RSS le proporciona un (pocos) formatos estandarizados en lugar de tener a todos los html malformados que conforman la web ...

Existen bibliotecas de código abierto como ROME (java) que pueden ayudar con el consumo de fuentes RSS.

0

Siguiendo en Kevin's sugerencia de alimentadores RSS, es posible que desee comprobar Yahoo pipes. Todavía no los he probado, pero creo que le permiten procesar varios canales RSS y generar páginas web o más fuentes RSS.

+1

Nunca use tuberías para nada grande. No es muy confiable y bastante lento. – mixdev

4

Salida Scrapy. Es un marco de rastreo web de código abierto escrito en Python (he oído que es similar a Django, pero en lugar de publicar páginas, las descarga). Es fácilmente extensible, distribuido/paralelo y se ve muy prometedor.

Usaría Scrapy, porque de esa manera podría guardar mis puntos fuertes para algo más trivial, como la forma de extraer los datos correctos del contenido raspado, etc., e insertarlos en una base de datos.

2

En realidad escribir un rastreador escala dirigida es una tarea bastante difícil. Implementé uno en el trabajo y lo mantuve por bastante tiempo. Hay muchos problemas que no sabes hasta que escribes uno y acertas los problemas. Específicamente trata con CDN y rastreo amigable de sitios. Los algoritmos adaptativos son muy importantes o disparará filtros DOS. En realidad, de todos modos, sin saber si tu rastreo es lo suficientemente grande.

Cosas para pensar:

  • ¿Cuál es el rendimiento, excepto capaces?
  • ¿Cómo lidiar con las interrupciones del sitio?
  • ¿Qué sucede si está bloqueado?
  • ¿Desea participar en el rastreo sigiloso (contreversial y realmente bastante difícil de conseguir)?

De hecho, he escrito algunas cosas que, si alguna vez consigo, podría ponerme en línea sobre la construcción con orugas, ya que construir una adecuada es mucho más difícil de lo que la gente le dirá. La mayoría de los rastreadores de código abierto funcionan lo suficientemente bien para la mayoría de las personas, así que si puedes, te recomiendo que uses uno de esos. Cuál es una opción de función/plataforma.