2010-07-27 18 views
19
  1. ¿Es mejor usar las metaetiquetas * o el archivo robots.txt para informar a las arañas/rastreadores que incluyan o excluyan una página?Metaetiqueta frente a robots.txt

  2. ¿Hay algún problema al usar las metaetiquetas y el archivo robots.txt?

* Ej: <#META name="robots" content="index, follow">

+11

Esta es una pregunta relacionada con la programación en términos de desarrollo web. – Tom

Respuesta

4

Robots.txt EN MIEMBRO.

La opción Meta tag le dice a los bots que no indexen archivos individuales, mientras que Robots.txt se puede usar para restringir el acceso a directorios completos.

Claro, utilice una Metaetiqueta si tiene la página impar en las carpetas indexadas que desea omitir, pero generalmente, le recomendaría la mayor parte de su contenido no indexado en una o más carpetas y usar robots.txt para salte el lote.

No, no es un problema en el uso tanto - si hay un choque, en términos generales, un niegan anulará un permiten.

+1

Aunque tiendo a ir también por Robots.txt, ¿no es posible que robots poco confiables puedan usar ese archivo para obtener una lista conveniente de nuevos directorios que puede rastrear? Mientras que con la etiqueta META, no tendrían manera de encontrar una página sin enlaces en primer lugar ... ¡Solo un pensamiento! – Codecraft

+1

@Codecraft Eso puede ser cierto, pero esa es la forma en que no debe mostrar información sensible a usuarios no autorizados. 'robots.txt' se usa para indicar a los rastreadores qué información no vale la pena en lugar de qué es privada y no se debe acceder a ella. – cpburnz

0

utilizaría probablemente robots.txt sobre la etiqueta meta. Robots.txt ha existido por más tiempo, y podría ser más ampliamente compatible (pero no estoy 100% seguro de eso).

En cuanto a la segunda parte, creo que la mayoría de las arañas adoptarán la configuración más restrictiva para una página, si existe una disparidad entre el robots.txt y la metaetiqueta.

4

Ambos son compatibles con todos los rastreadores que respeten los deseos de los webmasters. No todos lo hacen, pero contra ellos ninguna técnica es suficiente.

Puede usar las reglas de robots.txt para cosas generales, como no permitir secciones enteras de su sitio. Si dice Disallow: /family, entonces todos los enlaces que comienzan con /family no están indexados por un rastreador.

Metaetiqueta se puede utilizar para rechazar una sola página. Las páginas no permitidas por metaetiquetas no afectan a las páginas secundarias en la jerarquía de páginas. Si tiene una etiqueta de metadefender en /work, no impide que un rastreador acceda al /work/my-publications si hay un enlace en una página permitida.

22

Hay una diferencia significativa. Según google https://support.google.com/webmasters/answer/6062608?hl=en, seguirán indexando una página detrás de un robots.txt DENY, si la página está vinculada a través de otro sitio.

Sin embargo, no van a ver si una metaetiqueta:

Si bien Google no rastreará o indexar el contenido bloqueado por robots.txt, todavía podría encontrar e indexar una URL no permitida de otros lugares en La web. Como resultado, la dirección URL y, potencialmente, otra información disponible públicamente, como el texto de anclaje en los enlaces al sitio, aún pueden aparecer en los resultados de búsqueda de Google. Puede evitar que su URL aparezca por completo en los resultados de la Búsqueda de Google utilizando otros métodos de bloqueo de URL, como proteger con contraseña los archivos en su servidor o usando la metaetiqueta noindex o el encabezado de respuesta.

+3

Y de acuerdo con estos [1] (http://evolvedigitallabs.com/blog/robots-txt-vs-noindex-differences), [2] (http://etechdiary.com/robots-txt-vs-noindex- deindex-your-site-the-right-way), [3] (http://moz.com/learn/seo/robotstxt) páginas, no es solo google. En general, la metaetiqueta se usa para deshabilitar la indexación, mientras que robots.txt se usa para rechazar el rastreo. – zrisher

+0

+1, y me tomé la libertad de actualizar su publicación con una cita de la página vinculada, ¡si su contenido cambia! – Benjamin

-1

Puede tener cualquiera, pero si su sitio web tiene muchas páginas web, entonces los robots.txt es fácil y reduce la complejidad del tiempo

-1

Robots.txt es ideal para páginas que consumen gran parte de su presupuesto de rastreo como la búsqueda interna o filtros con una combinación infinita. Si permite que Google indexe yoursite.com/search=lalalala, perderá su presupuesto de rastreo.

+0

Aún no puede permitir el uso de meta-etiquetas, ¿verdad? Pero la pregunta era cuál es la diferencia entre este enfoque y robots.txt. – FazoM

+0

No creo que sea lo mismo. Si sus reglas están en robots.txt, un rastreador solo tendrá que cargar periódicamente robots.txt para tener una vista actualizada de lo que puede rastrear. Si sus reglas están en metaetiquetas, debería cargar cada página etiquetada periódicamente para tener una vista actualizada de las reglas. – Keith

0

meta es superior.

Para excluir páginas individuales de los índices de los motores de búsqueda, la metaetiqueta noindex es en realidad superior a robots.txt.

1

Hay una gran diferencia entre meta robot y robots.txt.

En el archivo robots.txt, le preguntamos a los rastreadores qué página debe rastrear y cuál debe excluir, pero no le pedimos al rastreador que no indexe el rastreo de esas páginas excluidas.

Pero si usamos la etiqueta meta robots, podemos pedir a los rastreadores de motores de búsqueda no indexar esta etiqueta page.The para ser utilizado para esto es:

< nombre #meta = "nombre de robot", content = " noindex "> (quitar #)

O

< #meta name = "nombre robot", content = "siguen, noindex"> (quitar #)

En la segunda etiqueta meta, tengo Robot pedido para seguir esa URL pero no para indexar en la búsqueda motor.

0

Desea utilizar 'noindex, seguir' en un robots meta tag, en lugar de robots.txt, porque permitirá que pase el enlace. Es mejor desde una perspectiva SEO.