Rastreo de Internet

Quiero rastrear cosas específicas. Específicamente eventos que se llevan a cabo como conciertos, películas, inauguraciones de galerías de arte, etc., etc. Cualquier cosa que uno pueda pasar tiempo yendo.Rastreo de Internet

¿Cómo implemento un rastreador?

me han oído hablar de Grub (grub.org -> no registrado) y Heritix (http://crawler.archive.org/)

¿Hay otros?

¿Qué opiniones tiene todo el mundo?

-Jason

Fuente

2009-04-07 Toddly

Hay un buen libro sobre el tema, puedo recomendar llamada Webbots, Spiders, and Screen Scrapers: A Guide to Developing Internet Agents with PHP/CURL.

Fuente

2009-04-08 00:07:21

sí! este es el libro que comenzó todo para mí. – KJW

Creo que la parte del webcrawler será la parte más fácil de la tarea. La parte difícil será decidir qué sitios visitar y cómo descubrir eventos en los sitios que desea visitar. Tal vez quiera consultar sobre el uso del Google o Yahoo API para obtener los datos que desea. Ya han hecho el trabajo de rastrear muchas páginas en Internet; puedes enfocarte en el, en mi opinión, un problema mucho más difícil de cribar los datos para obtener los eventos que estás buscando.

Fuente

2009-04-08 01:01:17

¿Hay algún requisito específico de lenguaje?,

pasé algún tiempo jugando con el Chilkat araña Lib para .NET hace un tiempo para la experimentación personal,

Que yo sepa no hay Araña Liberaciones, tienen licencia como freeware, (Altho fuente se abre como lo que sé :()

Parece que tienen pitón de Lib a.

http://www.example-code.com/python/pythonspider.asp #Python http://www.example-code.com/csharp/spider.asp # .Net

Fuente

2009-04-08 02:07:24 Fusspawn

Hagas lo que hagas, sé un buen ciudadano y obedece el archivo robots.txt. Es posible que desee comprobar las referencias en la página wikipedia en focused crawlers. Me acabo de dar cuenta de que conozco a uno de los autores de Topical Web Crawlers: Evaluating Adaptive Algorithms. Mundo pequeño.

Fuente

2009-04-08 02:49:04 tvanfosson

Si descubre que el rastreo de Internet se convierte en una tarea importante, puede considerar construir RSS aggregator y suscribirse a feeds RSS para sitios de eventos populares como craigslist y upcoming.org.

Cada uno de estos sitios ofrece eventos localizados y con capacidad de búsqueda. RSS le proporciona un (pocos) formatos estandarizados en lugar de tener a todos los html malformados que conforman la web ...

Existen bibliotecas de código abierto como ROME (java) que pueden ayudar con el consumo de fuentes RSS.

Fuente

2009-04-08 05:16:23

Siguiendo en Kevin's sugerencia de alimentadores RSS, es posible que desee comprobar Yahoo pipes. Todavía no los he probado, pero creo que le permiten procesar varios canales RSS y generar páginas web o más fuentes RSS.

Fuente

2009-05-14 21:40:24

Nunca use tuberías para nada grande. No es muy confiable y bastante lento. – mixdev

Un excelente texto introductorio para ese tema es Introduction to Information Retrieval (texto completo disponible en línea). Tiene un capítulo en Web crawling, pero quizás lo más importante, proporciona una base para las cosas que desea hacer con los documentos rastreados.

Introduction to Information Retrieval http://nlp.stanford.edu/IR-book/iir.jpg

Fuente

2009-05-14 21:59:40

Libro fantástico. –

Salida Scrapy. Es un marco de rastreo web de código abierto escrito en Python (he oído que es similar a Django, pero en lugar de publicar páginas, las descarga). Es fácilmente extensible, distribuido/paralelo y se ve muy prometedor.

Usaría Scrapy, porque de esa manera podría guardar mis puntos fuertes para algo más trivial, como la forma de extraer los datos correctos del contenido raspado, etc., e insertarlos en una base de datos.

Fuente

2009-06-09 21:08:36 hannson

Nutch Crawler

Fuente

2009-06-15 19:45:51 bill

En realidad escribir un rastreador escala dirigida es una tarea bastante difícil. Implementé uno en el trabajo y lo mantuve por bastante tiempo. Hay muchos problemas que no sabes hasta que escribes uno y acertas los problemas. Específicamente trata con CDN y rastreo amigable de sitios. Los algoritmos adaptativos son muy importantes o disparará filtros DOS. En realidad, de todos modos, sin saber si tu rastreo es lo suficientemente grande.

Cosas para pensar:

¿Cuál es el rendimiento, excepto capaces?
¿Cómo lidiar con las interrupciones del sitio?
¿Qué sucede si está bloqueado?
¿Desea participar en el rastreo sigiloso (contreversial y realmente bastante difícil de conseguir)?

De hecho, he escrito algunas cosas que, si alguna vez consigo, podría ponerme en línea sobre la construcción con orugas, ya que construir una adecuada es mucho más difícil de lo que la gente le dirá. La mayoría de los rastreadores de código abierto funcionan lo suficientemente bien para la mayoría de las personas, así que si puedes, te recomiendo que uses uno de esos. Cuál es una opción de función/plataforma.

Fuente

2009-07-31 21:52:54

Respuesta

Cuestiones relacionadas