2009-03-22 17 views
18

¿Hay alguna manera de configurar el archivo robots.txt para que el sitio acepte visitas ÚNICAMENTE desde Google, Yahoo! y arañas MSN?Robots.txt: permitir solo mayor SE

+1

robots.txt no tiene nada que ver con lo que el "sitio acepta". Es solo una lista publicada de reglas que se espera que obedezcan los agentes que se portan bien. El único recurso para romper las reglas es usar un mecanismo diferente para prohibir por IP o agente de usuario. – Eclipse

+0

Estoy de acuerdo con usted: no podría expresar el concepto mejor debido a mi inglés bastante pobre. –

+2

Como las arañas provocan mucha actividad en su servidor, me interesa permitir el acceso solo a las del SE mayor (principalmente Google) que traen visitas a mi sitio web. La razón es que voy a iniciar un VPS de Amazon EC2 y no quiero pagar por el tráfico y el uso de la CPU que pueden causar tantas arañas. Tal vez no sea significativo, pero la idea parece bastante razonable para mí. –

Respuesta

28

 
User-agent: * 
Disallow:/
User-agent: Googlebot 
Allow:/
User-agent: Slurp 
Allow:/
User-Agent: msnbot 
Disallow: 

Slurp es el robot de Yahoo

+1

Google, MSN y Yahoo tienen otras arañas que también querrás 'Permitir' (p. Ej., Msnbot-media, bingbot). Además, bingbot es la araña de Microsoft que veo más en los registros de los sitios que opero. –

+0

¿Qué hay de los bots de Facebook? – sphinx

16

¿Por qué?

Cualquier persona que haga algo malo (por ejemplo, recopile direcciones de correo electrónico para correo no deseado) simplemente ignorará el archivo robots.txt. Por lo tanto, solo bloqueará los motores de búsqueda legítimos, ya que el cumplimiento de robots.txt es voluntario.

Pero, si insistes en hacerlo de todos modos, para eso está la línea User-Agent: en robots.txt.

User-agent: googlebot 
Disallow: 

User-agent: * 
Disallow:/

Con líneas para todos los otros buscadores de los que le gustaría el tráfico, por supuesto. Robotstxt.org tiene una lista parcial.

+1

"Solo estoy de acuerdo con los grandes jugadores que roban mi sitio" no es agradable para los jugadores más pequeños y prometedores. Desearía poder renunciar a tu "¿Por qué?" mil veces más. Quiero decir, si está bien con el estado actual de las cosas, es decir, todo el mundo está en el regazo de Google, entonces, por supuesto, adelante y excluya a todos los demás rastreadores. – Marcus

+1

Tengo que estar en desacuerdo, el tema es que hay muchos jugadores nuevos y ejerce demasiada presión sobre el ancho de banda, especialmente si tienes un sitio web grande con miles de enlaces nuevos cada día ... entonces tal vez quieras deshacerte de esos que apenas hace el 1% de las búsquedas en Internet y va con el gran 3 en su lugar – jjj

+0

@jjj si un robot en particular está raspando su sitio de manera agresiva, puede usar el robots.txt para pedirles que se detengan. Y, por supuesto, si solo hay un sitio que bloquea a todos menos a Google, a nadie le importará. Pero si una parte notable de los sitios seguía sus consejos, entonces robots.txt se convertiría en el estándar para bloquear el monopolio de Google, y cualquier otro robot lo ignoraría o, como alternativa, fingiría ser Googlebot. – derobert

0

Como todo el mundo sabe, el robots.txt es un estándar a ser obedecido por el rastreador y agentes tanto, sólo de buen comportamiento hacerlo. Entonces, ponerlo o no no importa.

Si tiene algunos datos, que no se muestran en el sitio también, puede simplemente cambiar el permiso y mejorar la seguridad.

Cuestiones relacionadas