2008-09-04 13 views
10

Digamos que tengo un sitio web para alojar contenido generado por la comunidad que se dirige a un conjunto muy específico de usuarios. Ahora, digamos que con el interés de fomentar una mejor comunidad, tengo un área fuera del tema donde los miembros de la comunidad pueden publicar o hablar sobre lo que quieran, independientemente del tema principal del sitio.robots.txt dinámico

Ahora, I quiero la mayor parte del contenido para ser indexado por Google. La excepción notable es el contenido fuera de tema. Cada hilo tiene su propia página, pero todos los hilos están listados en la misma carpeta, por lo que no puedo excluir los motores de búsqueda de una carpeta en algún lugar. Tiene que ser por página. Un archivo robots.txt tradicional sería enorme, ¿de qué otra forma podría lograrlo?

Respuesta

21

Esto funcionará para todos los motores de búsqueda se comportan bien, sólo tiene que añadir a la <head>:

<meta name="robots" content="noindex, nofollow" /> 
+0

2

Si utilizo Apache, utilizaría mod-rewrite para aliar robots.txt a un script que podría generar dinámicamente el contenido necesario.

Editar: Si usa IIS, puede usar ISAPIrewrite para hacer lo mismo.

0

simlarly a la sugerencia de @ James Marshall - en ASP.NET que podría utilizar un HttpHandler para redirigir las llamadas a los robots .txt a un script que generó el contenido.

-1

Puede impedir que los motores de búsqueda lean o indexen su contenido al restringir las metaetiquetas de los robots. De esta forma, araña considerará sus instrucciones e indexará solo las páginas que desee.

0

Puede implementarlo sustituyendo robots.txt con script dinámico generando el resultado. Con Apache Podrías hacer una regla simple de .htaccess para lograr eso.

RewriteRule ^robots\.txt$ /robots.php [NC,L] 
-1

bloque de páginas web dinámicas mediante el uso de robots.txt este código


User-agent: *

Disallow:/setnewsprefs?

No permitir: /index.html?

No permitir: /?

Permitir:?/Hl =

Disallow:/hl = * &

0

Sólo por ese hilo, asegúrese de que su cabeza contiene una metaetiqueta?. Es una forma más de decirle a los motores de búsqueda que no rastreen su página que no sea el bloqueo en robots.txt

Cuestiones relacionadas