2009-01-28 9 views
5

He estado pensando un tiempo acerca de no permitir que todos los rastreadores excepto Ask, Google, Microsoft y Yahoo! de mi sitio.robots.txt: deshabilitar todos menos unos pocos, ¿por qué no?

El razonamiento detrás de esto es que nunca he visto ningún tráfico generado por cualquiera de los otros rastreadores web que hay.

Mis preguntas son:

  1. ¿Hay alguna razón para no hacerlo?
  2. ¿Alguien ha hecho esto?
  3. ¿Notaste algún efecto negativo?

Actualización:
Hasta ahora he utilizado el enfoque de lista negra: si no me gusta el rastreador, los agrego a la lista no se utilizarán.
No soy fanático de la lista negra, sin embargo, ya que esta es una historia interminable: siempre hay más rastreadores por ahí.

No estoy tan preocupado por los rastreadores realmente feos, que se comportan mal, se detectan y bloquean automáticamente. (y de todos modos no preguntan por robots.txt de todos modos :)

Sin embargo, muchos rastreadores no se están portando mal de ninguna manera, simplemente no parecen generar ningún valor para mí/mis clientes.
Hay, por ejemplo, un par de rastreadores que potencian el sitio web y afirman que serán The Next Google; Solo mejor. Nunca he visto tráfico proveniente de ellos y soy bastante escéptico acerca de que sean mejores que cualquiera de los cuatro motores de búsqueda mencionados anteriormente.

Actualización 2:
que he estado analizando el tráfico a varios sitios desde hace algún tiempo, y parece que para los pequeños sitios razonables, 100 visitantes humanos únicos al día (= visitantes que no puedo identificar como no humano). Alrededor del 52% del tráfico generado es por procesos automatizados.

El 60% de los visitantes automáticos no está leyendo robots.txt, el 40% (21% del tráfico total) solicita el archivo robots.txt. (Esto incluye Ask, Google, Microsoft y Yahoo!)

Así que mi pensamiento es, si bloqueo todos los rastreadores bien comportados que no parecen generar ningún valor para mí, podría reducir el uso del ancho de banda y la carga del servidor alrededor del 12% - 17%.

+0

nice avatar btw :) – annakata

+0

¿Qué pasa con el downvote y el cierre de una pregunta que se ha formulado más de tres! ¿hace años que? ¿Es este el nuevo incentivo para mantener feliz a la comunidad? Ah, y sin comentarios en absoluto. – Jacco

+0

Desde una perspectiva de seguridad, la lista blanca es inequívocamente el mejor camino a seguir. Sin embargo, si la política es una sugerencia en lugar de un mandato (como lo es robots.txt), cuando se trata de bloquear agentes de usuario, los únicos que prestarán atención son los educados, y esos no son los que eres tratando de parar, de todos modos. Habiendo dicho eso, las URL de lista blanca tienen una desventaja ** no **, y usted puede aplicarlas. Entonces, sabes que cualquiera que intente acceder a '/admin.php' es malicioso y no solo un robot confundido. Además, sabes exactamente qué contenido quieres indexar. –

Respuesta

4

El internet es un mecanismo de publicación. Si quiere incluir su sitio en una lista blanca, está contra la corriente, pero está bien.

Do ¿desea poner su sitio en blanco?

Tenga en cuenta que los bots mal comportados que ignoran robots.txt no se ven afectados de todos modos (obviamente), y los robots bien comportados probablemente existen por una buena razón, es solo que eso es opaco para ustedes.

3

Si bien es posible que otros sitios que rastreen sus sitios no envíen ningún contenido a su manera, es posible que ellos mismos estén siendo indexados por Google y otros, por lo que agregarlos a su ranking podría afectarlo.

3

¿Hay alguna razón para no hacerlo?

¿Quieres que te dejen afuera de algo que podría incluir tu sitio que no conoces e indirectamente traes mucho contenido a tu manera?

Si algunos rastreadores extraños están martillando su sitio y comiendo su ancho de banda es posible que desee, pero es muy posible que estos rastreadores tampoco respeten su robots.txt.

Examine sus archivos de registro y vea qué rastreadores tiene y qué proporción de su ancho de banda están comiendo. Puede haber formas más directas de bloquear el tráfico que está bombardeando su sitio.

1

Mi única preocupación es que te pierdas el próximo gran evento.

Hubo un largo período en que AltaVista era el motor de búsqueda. Posiblemente incluso más que Google ahora. (no había bing, o Ask, y Yahoo era un directorio, en lugar de un motor de búsqueda como tal). Los sitios que bloquearon a todos menos a Altavista nunca habrían visto el tráfico de Google y, por lo tanto, nunca habrían sabido lo popular que era, a menos que supieran de otra fuente, lo que los habría puesto en considerable desventaja durante un tiempo.

El Pagerank tiende a estar sesgado hacia sitios más antiguos. No desea parecer más nuevo de lo que es porque estaba bloqueando el acceso a través de robots.txt sin ningún motivo. Estos tipos: http://www.dotnetdotcom.org/ pueden ser completamente inútiles ahora, pero tal vez dentro de 5 años, el hecho de que usted no estaba en su índice ahora contará en su contra en el próximo gran motor de búsqueda.

+0

punto @good, no había considerado este punto de vista. – Jacco

2

Esto es actualmente un poco incómodo, ya que no hay campo "Permitir". La manera más fácil es prohibir todos los archivos en un directorio diferente, decir "cosas" y dejar el archivo en el nivel superior a este.

Cuestiones relacionadas