2011-09-25 24 views
5

Estoy construyendo un proyecto en python que necesita raspar enormes y enormes cantidades de datos de Twitter. Algo así como 1 millón de usuarios y todos sus tweets deben ser eliminados.Cómo raspar una gran cantidad de tweets

Anteriormente he usado Tweepy y Twython, pero llego al límite de Twitter muy rápido.

¿Cómo obtienen sus datos las empresas de análisis de sentimientos, etc.? ¿Cómo obtienen todos esos tweets? ¿Lo compras en alguna parte o construyes algo que itera a través de diferentes proxies o algo así?

¿Cómo obtienen las empresas como Infochimps con el rango de Trst, por ejemplo, todos sus datos? * http://www.infochimps.com/datasets/twitter-census-trst-rank

+1

Si llega al límite demasiado rápido, debe distribuir su trabajo entre muchos días y construir su base de datos más lentamente. Creo que así es como las compañías hacen esto. – heltonbiker

Respuesta

7

Si desea que los últimos tweets de usuarios específicos, Twitter ofrece la Streaming API.

La API de transmisión es la muestra en tiempo real de Twitter Firehose. Esta API es para aquellos desarrolladores con necesidades intensivas de datos. Si está buscando construir un producto de minería de datos o está interesado en análisis de investigación, la API de transmisión es la más adecuada para tales cosas.

Si está intentando acceder a la vieja información, la API REST con sus límites de solicitudes graves es el único camino a seguir.

7

No sé si esto funcionará para lo que estás tratando de hacer, pero el conjunto de datos Tweets2011 fue lanzado recientemente.

partir de la descripción:

Como parte de la pista microblog TREC 2011, Twitter proporciona identificadores durante aproximadamente 16 millones de tweets muestreados entre enero 23 y 8 de febrero de 2011. El corpus está diseñado para ser una reutilizable, muestra representativa de la twittersfera, es decir, se incluyen tweets de spam importantes y .

+0

gracias, esa es una interesante para que investigue. Sin embargo, quiero poder obtener los datos de usuarios específicos de alguna manera. También es preferible poder raspar los últimos tweets de alrededor de 1 millón de usuarios diariamente. ¿Alguna idea sobre eso? – Javaaaa

+0

Bastante seguro de que no podrás hacer eso. Los límites de la tasa de API de Twitter te estrangularían demasiado. – jterrace

Cuestiones relacionadas