Necesito ayuda para configurar Tor en Ubuntu y usarlo dentro del framework scrapy.Uso del proxy Tor con scrapy
me hizo una investigación y descubrió esta guía:
class RetryChangeProxyMiddleware(RetryMiddleware):
def _retry(self, request, reason, spider):
log.msg('Changing proxy')
tn = telnetlib.Telnet('127.0.0.1', 9051)
tn.read_until("Escape character is '^]'.", 2)
tn.write('AUTHENTICATE "267765"\r\n')
tn.read_until("250 OK", 2)
tn.write("signal NEWNYM\r\n")
tn.read_until("250 OK", 2)
tn.write("quit\r\n")
tn.close()
time.sleep(3)
log.msg('Proxy changed')
return RetryMiddleware._retry(self, request, reason, spider)
luego usarlo en settings.py:
DOWNLOADER_MIDDLEWARE = {
'spider.middlewares.RetryChangeProxyMiddleware': 600,
}
y luego lo que desea es enviar solicitudes a través del proxy Tor local (polipo), que se podría hacer con:
tsocks scrapy crawl spirder
¿alguien puede confirmar, que funciona este método y se obtiene di ¿IPs diferentes?
sólo trato en su propio recurso y comprobar los registros del servidor. Y establezca la lista de identificadores de navegador para ocultar a los propietarios :) o agregue unid id para su rastreador. – nk9
¿Cómo configuro una lista de identificaciones de navegador? – DjangoPy
Oh ... No trabajé con scrapy, así que busco ayuda ahora :). Pero para realizar pruebas en su propio sitio, mejor utilice la idónica unic para registros de análisis fáciles – nk9