2011-08-29 12 views
27

Parece que no puedo hacer que esto funcione, pero parece realmente básico.robots.txt permite solo root, no permite todo lo demás?

Quiero la raíz del dominio que se desea rastrear

http://www.example.com 

Pero nada más que ser rastreadas y todos los subdirectorios son dinámicos

http://www.example.com/* 

me trataron

User-agent: * 
Allow:/
Disallow: /*/ 

pero el webmaster Google la herramienta de prueba dice que todos los subdirectorios están permitidos.

¿Alguien tiene una solución para esto? Gracias :)

+0

Intenta eliminar la línea 'Permitir' o colocarla después de' Disallow'. Se supone que los rastreadores se detienen en el primer partido. –

+0

Brian tiene razón, primeras reglas de coincidencia, pero tenga en cuenta que si no permite todo de esta manera, la "vista rápida" de Google no podrá cargar ninguna imagen o script, por lo que la visualización podría verse alterada. Por lo tanto, quizás necesite crear al menos una sola carpeta pública para que su página de inicio se muestre bien en "vista rápida". –

Respuesta

-2
User-agent: * 
Allow: index.html (or /index.php) 
Disallow:/

debería hacer la magia.

+0

index.html (o .php) no es la ruta raíz "/" –

25

De acuerdo con las definiciones de análisis de Backus-Naur Form (BNF) en Google's robots.txt documentation, el orden de las directivas Allow y Disallow no es relevante. Así que cambiar el orden realmente no te ayudará.

En su lugar, debe utilizar el operador $ para indicar el cierre de su ruta.

Pruebe este robots.txt. Estoy seguro de que debe trabajar para usted (También he comprobado en GWT):

user-agent: * 
Allow: /$ 
Disallow:/

Esto permitirá http://www.example.com y http://www.example.com/ se rastree pero todo lo demás bloqueado.

nota: que la directiva Allow satisface su caso de uso particular, pero si usted tiene index.html o default.php, no será arrastrado estas URL.

nota al margen: Solo estoy muy familiarizado con el comportamiento de Googlebot y bingbot. Si hay otros motores a los que se dirige, pueden o no tener reglas específicas sobre cómo se enumeran las directivas. Entonces, si quiere estar "extra" seguro, siempre puede cambiar las posiciones de los bloques de directiva Allow y Disallow, solo los configuré para desacreditar algunos de los comentarios.

+0

¿Se puede rastrear solo la página raíz? O http://www.example.com/electr/pr.html también está bien? – gmlvsv

2

Cuando nos fijamos en las especificaciones de robots.txt de Google, se puede ver que:

Google, Bing, Yahoo y Ask apoyar una forma limitada de "comodines" para los valores de ruta.Estos son:

  1. * designa 0 o más instancias de cualquier carácter válido
  2. $ designa el final de la URL

ver https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=en#example-path-matches

Entonces, como eywu dijo , la solución es

user-agent: * 
Allow: /$ 
Disallow:/
Cuestiones relacionadas