Cómo configurar un robot.txt que solo permite la página predeterminada de un sitio

Digamos que tengo un sitio en http://example.com. Realmente me gustaría permitir que los robots vean la página de inicio, pero cualquier otra página debe estar bloqueada ya que no tiene sentido araña. En otras palabrasCómo configurar un robot.txt que solo permite la página predeterminada de un sitio

http://example.com & http://example.com/ se debe permitir, pero http://example.com/anything y http://example.com/someendpoint.aspx deben ser bloqueados.

Además sería muy bueno si puedo permitir que ciertas cadenas de consulta de paso a través de la página de inicio: http://example.com?okparam=true

pero no http://example.com?anythingbutokparam=true

Fuente

2008-09-04 Boaz

Así que después de algunas investigaciones, esto es lo que encontré - una solución aceptable por los principales proveedores de búsqueda: google, yahoo & msn (pude en encontrar un validador aquí):

User-Agent: * 
Disallow: /* 
Allow: /?okparam= 
Allow: /$

El truco está utilizando $ para marcar el final de la URL.

Fuente

2008-09-04 20:34:05 Boaz

robots.txt básica:

Disallow: /subdir/

I no piense que puede crear una expresión que diga 'todo menos la raíz', debe completar todos los subdirectorios.

La limitación de la cadena de consulta tampoco es posible desde robots.txt. Tienes que hacerlo en el código de fondo (la parte de procesamiento), o tal vez con las reglas de reescritura del servidor.

Fuente

2008-09-04 09:58:27 Biri

Disallow: * 
Allow: index.ext

Si mal no recuerdo, la segunda cláusula debe anular la primera.

Fuente

2008-09-04 10:27:43 UnkwnTech

Google's Webmaster Tools informe que no permitir siempre tiene prioridad sobre permitir, por lo que no hay una manera fácil de hacerlo en un archivo robots.txt.

Puede lograr esto colocando una etiqueta noindex,nofollowMETA en el código HTML de cada página, excepto la página de inicio.

Fuente

2008-09-04 14:12:47 ceejayoz

Hasta donde yo sé, no todos los rastreadores admiten la etiqueta Permitir. Una posible solución podría ser colocar todo, excepto la página de inicio, en otra carpeta y rechazar esa carpeta.

Fuente

2008-09-04 14:18:33 hakan

Cómo configurar un robot.txt que solo permite la página predeterminada de un sitio

Respuesta

Cuestiones relacionadas