He estado pensando un tiempo acerca de no permitir que todos los rastreadores excepto Ask, Google, Microsoft y Yahoo! de mi sitio.robots.txt: deshabilitar todos menos unos pocos, ¿por qué no?
El razonamiento detrás de esto es que nunca he visto ningún tráfico generado por cualquiera de los otros rastreadores web que hay.
Mis preguntas son:
- ¿Hay alguna razón para no hacerlo?
- ¿Alguien ha hecho esto?
- ¿Notaste algún efecto negativo?
Actualización:
Hasta ahora he utilizado el enfoque de lista negra: si no me gusta el rastreador, los agrego a la lista no se utilizarán.
No soy fanático de la lista negra, sin embargo, ya que esta es una historia interminable: siempre hay más rastreadores por ahí.
No estoy tan preocupado por los rastreadores realmente feos, que se comportan mal, se detectan y bloquean automáticamente. (y de todos modos no preguntan por robots.txt de todos modos :)
Sin embargo, muchos rastreadores no se están portando mal de ninguna manera, simplemente no parecen generar ningún valor para mí/mis clientes.
Hay, por ejemplo, un par de rastreadores que potencian el sitio web y afirman que serán The Next Google; Solo mejor. Nunca he visto tráfico proveniente de ellos y soy bastante escéptico acerca de que sean mejores que cualquiera de los cuatro motores de búsqueda mencionados anteriormente.
Actualización 2:
que he estado analizando el tráfico a varios sitios desde hace algún tiempo, y parece que para los pequeños sitios razonables, 100 visitantes humanos únicos al día (= visitantes que no puedo identificar como no humano). Alrededor del 52% del tráfico generado es por procesos automatizados.
El 60% de los visitantes automáticos no está leyendo robots.txt, el 40% (21% del tráfico total) solicita el archivo robots.txt. (Esto incluye Ask, Google, Microsoft y Yahoo!)
Así que mi pensamiento es, si bloqueo todos los rastreadores bien comportados que no parecen generar ningún valor para mí, podría reducir el uso del ancho de banda y la carga del servidor alrededor del 12% - 17%.
nice avatar btw :) – annakata
¿Qué pasa con el downvote y el cierre de una pregunta que se ha formulado más de tres! ¿hace años que? ¿Es este el nuevo incentivo para mantener feliz a la comunidad? Ah, y sin comentarios en absoluto. – Jacco
Desde una perspectiva de seguridad, la lista blanca es inequívocamente el mejor camino a seguir. Sin embargo, si la política es una sugerencia en lugar de un mandato (como lo es robots.txt), cuando se trata de bloquear agentes de usuario, los únicos que prestarán atención son los educados, y esos no son los que eres tratando de parar, de todos modos. Habiendo dicho eso, las URL de lista blanca tienen una desventaja ** no **, y usted puede aplicarlas. Entonces, sabes que cualquiera que intente acceder a '/admin.php' es malicioso y no solo un robot confundido. Además, sabes exactamente qué contenido quieres indexar. –