2011-02-01 9 views
8

Supongamos que una fuente de datos establece un acelerador ajustado basado en IP. ¿Podría un raspador web descargar los datos si el acelerador comienza a rechazar sus solicitudes tan pronto como el 1% de los datos que se descargan?¿Podría un rascador web obtener una buena protección contra el acelerador?

La única técnica que podría pensar de un pirata informático que usa aquí sería algún tipo de sistema proxy. Pero, parece que los proxies (incluso si son rápidos) eventualmente llegarán al acelerador.

Actualización: Algunas personas a continuación han mencionado grandes redes de proxy como Yahoo Pipes y Tor, pero ¿no podrían estos rangos de IP o nodos de salida conocidos estar en la lista negra también?

Respuesta

7

Se puede compilar una lista de miles o poxies para FREE. Las direcciones IPv6 se pueden alquilar por pennies. Demonios, un atacante podría iniciar una micro instancia de Amazon EC2 por 2-7 centavos por hora.

¿Y quiere evitar que las personas rasquen su sitio? Internet no funciona de esa manera, y con suerte nunca lo hará.

(He visto servidores IRC hacer un escaneo de puertos en clientes para ver si están abiertos los siguientes puertos: 8080,3128,1080. Sin embargo, hay servidores proxy que usan puertos diferentes y también hay razones legítimas para ejecutar el servidor proxy o tener estos puertos abiertos, como si estuviera ejecutando Apache Tomcat. Podría subir un escalón utilizando YAPH para ver si un cliente ejecuta un servidor proxy. En efecto, estaría utilizando un atacante también contra ellos;)

0

He oído hablar de personas que usan Yahoo Pipes para hacer tales cosas, esencialmente usando Yahoo como proxy para extraer los datos.

+0

Aún así, ¿acaso el IP de Yahoo no sería eventualmente acelerado? – babonk

+1

@babonk - posiblemente, pero Yahoo tiene muchas direcciones IP ... –

2

Alguien que use Tor estaría saltando las direcciones IP cada pocos minutos. Solía ​​ejecutar un sitio web donde esto era un problema, y ​​recurrí al bloqueo de las direcciones IP de los nodos de salida Tor conocidos cada vez que se detectaba un raspado excesivo. Puede implementar esto si puede encontrar una lista actualizada regularmente de nodos de salida Tor, por ejemplo, https://www.dan.me.uk/tornodes

+1

Ese enlace tor_blacklist.txt ha sido reemplazado por un anuncio. Este sitio https://www.dan.me.uk/tornodes ofrece un enlace directo https://www.dan.me.uk/torlist/ todos los nodos de salida TOR actualizados cada 30 minutos. –

+0

gracias, actualizado –

0

Quizás intente ejecutar su raspador en instancias de Amazon EC2. Cada vez que lo estrangulan, inicie una nueva instancia (en la nueva IP) y elimine la anterior.

1

Puede usar una red de rastreo P2P para realizar esta tarea. Habrá una gran cantidad de IP disponibles y no habrá problemas si uno de ellos se acelera. Además, puede combinar muchas instancias de cliente utilizando alguna configuración proxy como se sugirió en las respuestas anteriores.

Creo que puede usar YaCy, una red de rastreo de código abierto P2P.

0

Depende del tiempo que tenga el atacante para obtener los datos. Si la mayoría de los datos son estáticos, podría ser interesante para un atacante ejecutar su raspador durante, digamos, 50 días. Si está en una línea DSL donde puede solicitar una "nueva" dirección IP dos veces al día, el límite del 1% no lo dañaría demasiado.

Por supuesto, si necesita los datos más rápidamente (porque están desactualizados rápidamente), hay mejores formas (usar instancias EC2, configurar un proyecto BOINC si hay interés público en los datos recopilados, etc.).

O tenga un esquema piramidal a la "obtenga 10 personas para ejecutar mi rastreador y obtenga PORN, u obtenga 100 personas para rastrearlo y obtenga MUCHAS PORNOGRAFÍAS", ya que era bastante común hace unos años con anuncios sitios web llenos Debido a la competencia involucrada (quién recibe la mayor cantidad de recomendaciones), es posible que obtenga rápidamente muchos nodos ejecutando su rastreador por muy poco dinero.

1

Un raspador que quiere la información obtendrá la información. Tiempos de espera, cambio de nombres de agentes, proxies y, por supuesto, EC2/RackSpace o cualquier otro servicio en la nube que tenga la capacidad de iniciar y detener servidores con nuevas direcciones IP por centavos.

Cuestiones relacionadas