2008-10-25 13 views
30

Estoy haciendo un trabajo de investigación en los agregadores de contenido, y tengo curiosidad de cómo algunos de los agregadores de craigslist actuales obtienen datos en sus mashups.¿Cómo obtienen los datos de los mashups de craigslist?

Por ejemplo, www.housingmaps.com y la www.chicagocrime.org ahora cerrado

Si hay una URL que se puede utilizar como referencia, que sería perfecto!

+1

Solo quería añadir una actualización a este hilo. Parece que en el año 2013, un juez federal encontró que eludir un bloque de IP (en concreto por craigslist) viola la CAFA: http://en.wikipedia.org/wiki/Computer_Fraud_and_Abuse_Act#Notable_cases_and_decisions_referring_to_the_Act hic sunt dracones –

+0

triste, pero cierto. Mira cómo Craigslist cerró (más o menos) 3Taps: http://en.wikipedia.org/wiki/Craigslist_Inc._v._3Taps_Inc. –

+0

Pregunta similar de 2015 - http://opendata.stackexchange.com/q/5883/1511 – philshem

Respuesta

0

Mientras continúa la investigación de esta área, me encontré con un sitio impresionante que lo hace en parte, lo que me interesa:

Crazedlist

Utiliza el HTTPReferer del navegador del cliente, que es interesante pero no ideal. El autor del sitio también afirma haber marcado con realismo CL, que entiendo. También da un claro ejemplo de necesidad comercial, que son similares a mis necesidades, y por qué estoy interesado en este tema.

2

estoy pantalla raspado

No creo que hay una API craigslist todavía .. y yo no creo que se dará a conocer una adivinando ..

por lo que la única manera de ir es para raspar los datos .. se puede usar la biblioteca cURL y expresiones regulares tirón para raspar los datos que desee de una página

si ves un enlace .. acceder a la página .. raspar la nueva página obtener los datos y mostrar o almacenar

y así sucesivamente ..

+11

-1 NUNCA SIEMPRE use RegEx para analizar XML – UnkwnTech

+0

Parse XML en Rails con la gema nokogiri. –

+1

@unknwntech: el xhtml en una página craigslist es extraordinariamente simple. Tiene razón en que no usa expresiones regulares para analizar XML, pero en este caso no es necesario. Simplemente está retirando elementos específicos en la página, que es más rápido que usar un analizador XML completo. – eremzeit

15

Para AdRavage.com Utilizo una combinación de RSS de urraca (para extraer los datos devueltos de las búsquedas) y una clase de raspado de pantalla personalizada para completar correctamente la información de ciudad/categoría utilizada al crear búsquedas.

Por ejemplo, para extraer las categorías que podía:

//scrape category data 
$h = new http(); 
$h->dir = "../cache/"; 
$url = "http://craigslist.org/"; 

if (!$h->fetch($url, 300)) { 
    echo "<h2>There is a problem with the http request!</h2>";  
    exit(); 
} 

//we need to get all category abbreviations (data looks like: <option value="ccc">community) 
preg_match_all ("/<option value=\"(.*)\">([^`]*?)\n/", $h->body, $categoryTemp); 

$catNames = $categoryTemp['2']; 

//return the array of abreviations 
if(sizeof($catNames) > 0) 
    return $catNames; 
else 
    return $emptyArray = array(); 
+0

¡Respuesta supremamente excelente! – pearcewg

4

El problema con cualquier solución de craigslist es que bloquean automáticamente cualquier dirección IP que acceda a ellas demasiado, lo que generalmente significa más de unos cientos de veces al día. Entonces, tan pronto como tu herramienta tenga algún tipo de popularidad, se cerrará.

Es por eso que los únicos sitios de búsqueda craigslist que han durado ya sea usan marcos (como searchtempest.com y crazedlist.org) o google (como allofcraigs.com).

Lo que 3taps hace es recopilar la lista de craigslist de fuentes de terceros 'en la naturaleza' - cosas como las cachés de Google y Bing, por ejemplo.

Editar: Esta respuesta ya no está actualizada. La mayoría de los motores de búsqueda clasificados que incluyen resultados de craigslist ahora usan Google Custom Search o soluciones similares de Yahoo o Bing. SearchTempest usa ambos.Allofcraigs ahora es adhuntr y usa Google. Crazedlist ha cerrado.

+1

Esto sigue siendo cierto. Para aquellos que no reconocen el logotipo, @Nathan Stretch escribió SearchTempest, la mejor herramienta de búsqueda y agregación de Craigslist que había visto. Lo usé para comprar dos autos, pero no me di cuenta de que Craigslist desató gran parte de su eficacia hace unos años. :( –

+0

@Eirik con suerte, no con toda su eficacia. Nos esforzamos mucho por adaptar nuestras consultas de Google para ofrecer resultados lo más completos posible. Mejor que cualquier otro competidor, según mi leal saber y entender. También tenemos un modo Directo que funciona de forma similar a como solían hacerlo los iframes, excepto que usaban ventanas separadas ya que los marcos ya no son una opción. –

4

La opción alternativa sería usar tubos YQL o Yahoo para reunir los resultados.

Craiglook y HousingMaps están usando para recoger los resultados

+2

Parece que Pipes está recibiendo 403 prohibido por CL en estos días. – nmr

13

Una alternativa a raspar (y se bloqueen), el uso de marcos, o búsqueda de Google es el uso de un agente de datos o el intercambio de datos servicio.

3taps es un servicio beta que proporciona una API de desarrollador para muchos servicios, incluido Craigslist. Su equipo también construyó Craiggers para demostrar un caso de uso de esta API. El fundador Greg Kidd me dijo que 3taps recolecta datos de Craigslist de fuentes que no son de Craigslist, donde ya está indexado y almacenado en la memoria caché, de modo que no ejerza presión sobre Craigslist. También se incluyen otras fuentes de datos de 3taps, pero these stats no deja claro si son compatibles actualmente. Su objetivo es Democratize the Exchange of Data.

80legs es un servicio de rastreo que proporciona una opción menos en tiempo real pero potencialmente más completa. Su servicio de estilo de volcado de datos incluye crawl packages para cientos de sitios como Amazon, Facebook y Zillow (actualmente no creo en Craigslist). Su esfuerzo más reciente Datafiniti proporciona un motor de búsqueda sobre este tipo de datos.

3

He realizado una gran cantidad de agregación de datos de sitios como eBay, Craigslist y Zillow. Cada fuente requiere un método diferente para agregar los datos.

Para Craigslist, obtuve los datos mediante fuentes RSS. Solo quería datos específicos en categorías específicas en ciudades específicas, y las fuentes RSS funcionaron bien para mí. Si intenta obtener todos los datos y usa en exceso los canales RSS, es probable que Craigslist lo bloquee. Además, no podrá obtener todos los datos de los feeds de Craigslist, porque los feeds muestran la mayoría de los datos, pero no todos. Si su confiabilidad no necesita ser del 100%, entonces RSS es la forma más fácil de hacerlo.

Cuestiones relacionadas