2008-11-29 11 views

Respuesta

4

¿Debo cambiar o editar el archivo robots.txt o puedo cambiar algo?

Depende del robot. Algunos robots ignorarán obedientemente a robots.txt. Tuvimos un problema similar hace 18 meses con el robot Google AD porque nuestro cliente compraba muchos anuncios. Los robots de Google AD ignorarán (como se documenta) las exclusiones de comodines (*), pero escucharán omisiones explícitas.

Recuerde, los robots que hacen honor a robots.txt simplemente no rastrearán su sitio. Esto no es deseable si quiere que tengan acceso a sus datos para indexarlos.

Una mejor solución es estrangular o suministrar contenido estático a los bots.

No estoy seguro de si eso es bueno, porque están indexando o qué?

Podrían estar indexando/raspando/robando. De todos modos realmente. Lo que creo que desea es acelerar su procesamiento de solicitud http en UserAgents. Cómo hacer esto depende de su servidor web y contenedor de aplicaciones.

Como se sugiere en otras respuestas, si el robot es malicioso, entonces deberá encontrar el patrón UserAgent y enviarles 403 prohibiciones. O bien, si los bots maliciosos cambian dinámicamente cadenas de agente de usuario, tiene dos opciones más:

  • Lista blanca UserAgents - por ej. crear un filtro de agente de usuario que solo acepta ciertos agentes de usuario. Esto es muy imperfecto
  • Prohibición de IP: el encabezado http contendrá la dirección IP de origen. O bien, si obtiene DOS (ataque de denegación de servicio), entonces tiene problemas mayores
+0

Tengo que 'estar en desacuerdo con el ítem 1 Google obedece muy bien el robots.txt. – UnkwnTech

+1

No es cierto cuando tuvimos este problema hace 18 meses (con www.mytickets.com.au). Era un robot AD de google que constantemente buscaba nuevos recursos. Revisaré mi fuente para esto de nuevo – CVertex

+0

Tienes razón. El caso en el que estaba pensando era esto: Google ad bots ignora el comodín (*) – CVertex

4

Realmente no creo que cambiar el archivo robots.txt vaya a ayudar, porque solo BUENOS bots acatan eso. Todos los demás lo ignoran y analizan su contenido a su gusto. Personalmente utilizo http://www.codeplex.com/urlrewriter para deshacerme de los robots indeseables respondiendo con un mensaje prohibido si se encuentran.

3

Los robots de spam no se preocupan por robots.txt. Puedes bloquearlos con algo como mod_security (que es un plugin Apache bastante bueno en sí mismo). O simplemente podrías ignorarlos.

2

Es posible que tenga que utilizar .htaccess para denegar algunos bots para atornillar con sus registros. Ver aquí: http://spamhuntress.com/2006/02/13/another-hungry-java-bot/

que había un montón de robots de rastreo Java mi sitio, añadiendo

SetEnvIfNoCase User-Agent^Java/1. javabot = yes
SetEnvIfNoCase User-Agent^Java1. javabot = yes
Denegar de env = javabot

les hizo detenerse.Ahora solo obtienen 403 una vez y eso es todo :)

2

Una vez trabajé para un cliente que tenía una cantidad de bots de "comparación de precios" que golpeaban el sitio todo el tiempo. El problema era que nuestros recursos back-end eran escasos y costaban dinero por transacción.

Después de tratar de luchar contra algunos de estos durante algún tiempo, pero los bots solo siguieron cambiando sus características reconocibles. Terminamos con la siguiente estrategia:

Para cada sesión en el servidor determinamos si el usuario estaba haciendo clic demasiado rápido en cualquier punto. Después de un número determinado de repeticiones, configuraríamos el indicador "isRobot" como verdadero y simplemente reduciríamos la velocidad de respuesta dentro de esa sesión agregando duerme. No le dijimos al usuario de ninguna manera, ya que él acaba de comenzar una nueva sesión en ese caso.

Cuestiones relacionadas