2008-09-04 9 views
18

Digamos que tengo un sitio en http://example.com. Realmente me gustaría permitir que los robots vean la página de inicio, pero cualquier otra página debe estar bloqueada ya que no tiene sentido araña. En otras palabrasCómo configurar un robot.txt que solo permite la página predeterminada de un sitio

http://example.com & http://example.com/ se debe permitir, pero http://example.com/anything y http://example.com/someendpoint.aspx deben ser bloqueados.

Además sería muy bueno si puedo permitir que ciertas cadenas de consulta de paso a través de la página de inicio: http://example.com?okparam=true

pero no http://example.com?anythingbutokparam=true

Respuesta

43

Así que después de algunas investigaciones, esto es lo que encontré - una solución aceptable por los principales proveedores de búsqueda: google, yahoo & msn (pude en encontrar un validador aquí):

User-Agent: * 
Disallow: /* 
Allow: /?okparam= 
Allow: /$ 

El truco está utilizando $ para marcar el final de la URL.

0

robots.txt básica:

Disallow: /subdir/ 

I no piense que puede crear una expresión que diga 'todo menos la raíz', debe completar todos los subdirectorios.

La limitación de la cadena de consulta tampoco es posible desde robots.txt. Tienes que hacerlo en el código de fondo (la parte de procesamiento), o tal vez con las reglas de reescritura del servidor.

0
Disallow: * 
Allow: index.ext 

Si mal no recuerdo, la segunda cláusula debe anular la primera.

1

Google's Webmaster Tools informe que no permitir siempre tiene prioridad sobre permitir, por lo que no hay una manera fácil de hacerlo en un archivo robots.txt.

Puede lograr esto colocando una etiqueta noindex,nofollowMETA en el código HTML de cada página, excepto la página de inicio.

0

Hasta donde yo sé, no todos los rastreadores admiten la etiqueta Permitir. Una posible solución podría ser colocar todo, excepto la página de inicio, en otra carpeta y rechazar esa carpeta.

Cuestiones relacionadas