Estoy trabajando en un proyecto para analizar cómo se citan los artículos de revistas. Tengo un gran archivo de nombres de artículos de revistas. Tengo la intención de pasarlos a Google Scholar y ver cuántas citas tiene cada uno.Usando tor y python para borrar Google Scholar
Aquí es la estrategia que estoy siguiendo:
Uso "scholar.py" de http://www.icir.org/christian/scholar.html. Esta es una secuencia de comandos python preescrita que busca google scholar y devuelve información sobre el primer hit en formato CSV (incluyendo número de citas)
Google scholar te bloquea después de un cierto número de búsquedas (Tengo aproximadamente 3000 títulos de artículos para consulta). He descubierto que la mayoría de la gente usa Tor (How to make urllib2 requests through Tor in Python? y Prevent Custom Web Crawler from being blocked) para resolver este problema. Tor es un servicio que le brinda una dirección IP aleatoria cada pocos minutos.
Tengo scholar.py y tor ambos configurados y funcionando con éxito. No estoy muy familiarizado con python o la biblioteca urllib2 y me pregunto qué modificaciones se necesitan para scholar.py para que las consultas se enruten a través de Tor.
También soy receptivo a sugerencias para un enfoque más fácil (y potencialmente considerablemente diferente) para las consultas masivas de eruditos de Google, si es que existe alguno.
Gracias de antemano
El primer enlace ya no es válido – chrisfs
Link rot, por eso las respuestas solo de enlace son una mierda ... Debo incluir las instrucciones en la respuesta, lamentablemente no tengo tiempo para hacerlo ahora, lo siento. El enlace –
está respaldado por ahora – user3791372