¿Hay alguna manera de configurar el archivo robots.txt para que el sitio acepte visitas ÚNICAMENTE desde Google, Yahoo! y arañas MSN?Robots.txt: permitir solo mayor SE
Respuesta
User-agent: * Disallow:/ User-agent: Googlebot Allow:/ User-agent: Slurp Allow:/ User-Agent: msnbot Disallow:
Slurp es el robot de Yahoo
Google, MSN y Yahoo tienen otras arañas que también querrás 'Permitir' (p. Ej., Msnbot-media, bingbot). Además, bingbot es la araña de Microsoft que veo más en los registros de los sitios que opero. –
¿Qué hay de los bots de Facebook? – sphinx
¿Por qué?
Cualquier persona que haga algo malo (por ejemplo, recopile direcciones de correo electrónico para correo no deseado) simplemente ignorará el archivo robots.txt. Por lo tanto, solo bloqueará los motores de búsqueda legítimos, ya que el cumplimiento de robots.txt es voluntario.
Pero, si insistes en hacerlo de todos modos, para eso está la línea User-Agent:
en robots.txt.
User-agent: googlebot
Disallow:
User-agent: *
Disallow:/
Con líneas para todos los otros buscadores de los que le gustaría el tráfico, por supuesto. Robotstxt.org tiene una lista parcial.
"Solo estoy de acuerdo con los grandes jugadores que roban mi sitio" no es agradable para los jugadores más pequeños y prometedores. Desearía poder renunciar a tu "¿Por qué?" mil veces más. Quiero decir, si está bien con el estado actual de las cosas, es decir, todo el mundo está en el regazo de Google, entonces, por supuesto, adelante y excluya a todos los demás rastreadores. – Marcus
Tengo que estar en desacuerdo, el tema es que hay muchos jugadores nuevos y ejerce demasiada presión sobre el ancho de banda, especialmente si tienes un sitio web grande con miles de enlaces nuevos cada día ... entonces tal vez quieras deshacerte de esos que apenas hace el 1% de las búsquedas en Internet y va con el gran 3 en su lugar – jjj
@jjj si un robot en particular está raspando su sitio de manera agresiva, puede usar el robots.txt para pedirles que se detengan. Y, por supuesto, si solo hay un sitio que bloquea a todos menos a Google, a nadie le importará. Pero si una parte notable de los sitios seguía sus consejos, entonces robots.txt se convertiría en el estándar para bloquear el monopolio de Google, y cualquier otro robot lo ignoraría o, como alternativa, fingiría ser Googlebot. – derobert
Como todo el mundo sabe, el robots.txt es un estándar a ser obedecido por el rastreador y agentes tanto, sólo de buen comportamiento hacerlo. Entonces, ponerlo o no no importa.
Si tiene algunos datos, que no se muestran en el sitio también, puede simplemente cambiar el permiso y mejorar la seguridad.
- 1. Robots.txt, no permitir URL en varios idiomas
- 2. Robots.txt No permitir ciertos nombres de carpeta
- 3. Robots.txt: No permitir subdirectorio pero permiten directorio
- 4. Robots.txt Permitir subcarpeta pero no la primaria
- 5. ¿Cómo configurar Robots.txt o Apache para permitir rastreadores solo a ciertas horas?
- 6. Robots.txt, ¿cómo permitir el acceso solo a la raíz del dominio y no más?
- 7. No permitir o Noindex en Subdominio con robots.txt
- 8. cómo no permitir todas las direcciones URL dinámicas robots.txt
- 9. robots.txt dinámico
- 10. robots.txt permite solo root, no permite todo lo demás?
- 11. ¿Cómo modifico robots.txt en Plone?
- 12. Robots.txt para múltiples dominios
- 13. ¿Permitir solo una instancia de script python?
- 14. Robots.txt: ¿Es válida esta regla de comodín?
- 15. C# Regex para permitir solo el alfanumérico
- 16. Regex permitir dígitos y un solo punto
- 17. regex permitir solo números o cadena vacía
- 18. Permitir solo caracteres alfanuméricos para un UITextField
- 19. Cómo obedezzco robots.txt
- 20. Googlebot no respeta Robots.txt
- 21. ¿Cómo se permite a los rastreadores acceder a index.php únicamente, utilizando robots.txt?
- 22. Metaetiqueta frente a robots.txt
- 23. asterisco en robots.txt
- 24. robots.txt parser java
- 25. Tastypie - Permitir permisos de solo lectura para usuarios no autenticados al permitir permisos de escritura autorizados
- 26. Multiple Sitemap: entradas en robots.txt?
- 27. Googlebots ¿Ignoras el archivo robots.txt?
- 28. Sintaxis de Robots.txt no entendida
- 29. Anotaciones de datos - No permitir números, o solo permitir cadenas dadas
- 30. Permitir que solo ciertos dominios puedan cargar un iFrame
robots.txt no tiene nada que ver con lo que el "sitio acepta". Es solo una lista publicada de reglas que se espera que obedezcan los agentes que se portan bien. El único recurso para romper las reglas es usar un mecanismo diferente para prohibir por IP o agente de usuario. – Eclipse
Estoy de acuerdo con usted: no podría expresar el concepto mejor debido a mi inglés bastante pobre. –
Como las arañas provocan mucha actividad en su servidor, me interesa permitir el acceso solo a las del SE mayor (principalmente Google) que traen visitas a mi sitio web. La razón es que voy a iniciar un VPS de Amazon EC2 y no quiero pagar por el tráfico y el uso de la CPU que pueden causar tantas arañas. Tal vez no sea significativo, pero la idea parece bastante razonable para mí. –