He notado en mis rastreadores que los bots visitan mi sitio ALOT. ¿Debo cambiar o editar mi archivo robots.txt o cambiar algo? No estoy seguro si eso es bueno, porque están indexando o qué?¿Debo deshacerme de los robots que visitan mi sitio?
Respuesta
¿Debo cambiar o editar el archivo robots.txt o puedo cambiar algo?
Depende del robot. Algunos robots ignorarán obedientemente a robots.txt. Tuvimos un problema similar hace 18 meses con el robot Google AD porque nuestro cliente compraba muchos anuncios. Los robots de Google AD ignorarán (como se documenta) las exclusiones de comodines (*), pero escucharán omisiones explícitas.
Recuerde, los robots que hacen honor a robots.txt simplemente no rastrearán su sitio. Esto no es deseable si quiere que tengan acceso a sus datos para indexarlos.
Una mejor solución es estrangular o suministrar contenido estático a los bots.
No estoy seguro de si eso es bueno, porque están indexando o qué?
Podrían estar indexando/raspando/robando. De todos modos realmente. Lo que creo que desea es acelerar su procesamiento de solicitud http en UserAgents. Cómo hacer esto depende de su servidor web y contenedor de aplicaciones.
Como se sugiere en otras respuestas, si el robot es malicioso, entonces deberá encontrar el patrón UserAgent y enviarles 403 prohibiciones. O bien, si los bots maliciosos cambian dinámicamente cadenas de agente de usuario, tiene dos opciones más:
- Lista blanca UserAgents - por ej. crear un filtro de agente de usuario que solo acepta ciertos agentes de usuario. Esto es muy imperfecto
- Prohibición de IP: el encabezado http contendrá la dirección IP de origen. O bien, si obtiene DOS (ataque de denegación de servicio), entonces tiene problemas mayores
Realmente no creo que cambiar el archivo robots.txt vaya a ayudar, porque solo BUENOS bots acatan eso. Todos los demás lo ignoran y analizan su contenido a su gusto. Personalmente utilizo http://www.codeplex.com/urlrewriter para deshacerme de los robots indeseables respondiendo con un mensaje prohibido si se encuentran.
Los robots de spam no se preocupan por robots.txt. Puedes bloquearlos con algo como mod_security (que es un plugin Apache bastante bueno en sí mismo). O simplemente podrías ignorarlos.
Es posible que tenga que utilizar .htaccess para denegar algunos bots para atornillar con sus registros. Ver aquí: http://spamhuntress.com/2006/02/13/another-hungry-java-bot/
que había un montón de robots de rastreo Java mi sitio, añadiendo
SetEnvIfNoCase User-Agent^Java/1. javabot = yes
SetEnvIfNoCase User-Agent^Java1. javabot = yes
Denegar de env = javabot
les hizo detenerse.Ahora solo obtienen 403 una vez y eso es todo :)
Una vez trabajé para un cliente que tenía una cantidad de bots de "comparación de precios" que golpeaban el sitio todo el tiempo. El problema era que nuestros recursos back-end eran escasos y costaban dinero por transacción.
Después de tratar de luchar contra algunos de estos durante algún tiempo, pero los bots solo siguieron cambiando sus características reconocibles. Terminamos con la siguiente estrategia:
Para cada sesión en el servidor determinamos si el usuario estaba haciendo clic demasiado rápido en cualquier punto. Después de un número determinado de repeticiones, configuraríamos el indicador "isRobot" como verdadero y simplemente reduciríamos la velocidad de respuesta dentro de esa sesión agregando duerme. No le dijimos al usuario de ninguna manera, ya que él acaba de comenzar una nueva sesión en ese caso.
- 1. ¿Debo deshacerme de los eventos?
- 2. Deshabilitar el aviso "Recordar mi contraseña" para los usuarios que visitan el sitio
- 3. ¿Debo deshacerme del Process.Start (url)?
- 4. ¿Debo deshacerme de una tarea?
- 5. ¿Cómo debo deshacerme de TFS Branches correctamente?
- 6. lucha contra los robots de spam
- 7. ¿Usar solo OpenId para iniciar sesión en su sitio ayuda a frustrar los robots de spam?
- 8. ¿Cómo debo almacenar la configuración de mi sitio ASP.NET MVC?
- 9. ¿Cómo comprobar si los usuarios que visitan el sitio están en la página raíz o en cualquier otra página?
- 10. ¿Qué debo verificar antes de que se publique mi sitio web de Ruby on Rails?
- 11. ¿Debo hacer de mi repositorio mi DocumentRoot para mi sitio web?
- 12. ¿Debo incluir el complemento "sin prefijo" en mi sitio web
- 13. ¿Cuál es el mejor método para evitar que los robots envíen spam a su blog?
- 14. Entornos de simulación de robots
- 15. ¿Cuáles son las metaetiquetas importantes que debo poner en mi sitio web?
- 16. ¿Hay alguna manera de hacer que los robots ignoren cierto texto?
- 17. ¿Debo escribir mi propio software de foro?
- 18. ¿Cómo bloquear bots no identificados que se rastrean en mi sitio web?
- 19. programación de robots con lisp?
- 20. Asegurar mi sitio
- 21. Actualizar los resultados de búsqueda de Google para Mi sitio
- 22. ¿Cómo acelero los usuarios de la API de mi sitio?
- 23. Procesadores de pago: ¿qué debo saber si deseo aceptar tarjetas de crédito en mi sitio web?
- 24. ¿Cómo evitar que los usuarios inicien sesión en mi sitio más de una sesión?
- 25. ¿Hay algún juego de estilo CRobots que admita robots escritos en más de un idioma?
- 26. ¿Dónde debo almacenar los datos de mi aplicación?
- 27. C#: ¿Debo deshacerme de un BackgroundWorker creado en tiempo de ejecución?
- 28. ¿Debo usar Pylon's Paste para alojar mi sitio web de Pylons? ¿O puedo usar Apache?
- 29. ¿Debo agregar los directorios de .NET framework a mi PATH?
- 30. Alojando mi sitio de Django
Tengo que 'estar en desacuerdo con el ítem 1 Google obedece muy bien el robots.txt. – UnkwnTech
No es cierto cuando tuvimos este problema hace 18 meses (con www.mytickets.com.au). Era un robot AD de google que constantemente buscaba nuevos recursos. Revisaré mi fuente para esto de nuevo – CVertex
Tienes razón. El caso en el que estaba pensando era esto: Google ad bots ignora el comodín (*) – CVertex