2012-02-01 15 views
14

Quiero evitar que los motores de búsqueda rastreen todo mi sitio web.¿Cómo evitar que los motores de búsqueda rastreen todo el sitio web?

Tengo una aplicación web para que utilicen los miembros de una empresa. Está alojado en un servidor web para que los empleados de la empresa puedan acceder a él. Nadie más (el público) lo necesitaría o lo encontraría útil.

Así que quiero agregar otra capa de seguridad (In Theory) para tratar de evitar el acceso no autorizado eliminando totalmente el acceso a él por parte de todos los motores de búsqueda bots/crawlers. Tener a Google indexando nuestro sitio para que se pueda buscar no tiene sentido desde el punto de vista comercial y simplemente agrega otra forma para que un hacker encuentre el sitio web en primer lugar para intentar hackearlo.

Sé en el robots.txt que puede decir a los motores de búsqueda que no rastreen ciertos directorios.

¿Es posible decirle a los bots que no rastreen todo el sitio sin tener que listar todos los directorios para no rastrear?

¿Es mejor hacerlo con robots.txt o es mejor que lo haga .htaccess u otro?

+1

Su sitio web es accesible por los hackers de sombrero negro, incluso si no hay motores de búsqueda índice de su sitio. Los hackers de Black Hat no hacen búsquedas en Google para encontrarte. Tienen sus propios botnets que rastrean la web e ignoran 'robots.txt'. Además, está perjudicando a Internet al dificultar que los empleados encuentren su sitio web a través de la búsqueda en Google. A Google no le gusta cuando haces esto y no estás haciendo que tu sitio web sea más seguro. Además, Google lo ayuda trayendo clientes. Es como TSA, donde te quitan la cuchilla de 1 pulgada, no están haciendo las cosas más seguras, y están molestando a todos. –

Respuesta

11

Se maneja mejor con un archivo robots.txt, solo para bots que respetan el archivo.

Para bloquear todo el sitio agregar esto a robots.txt en el directorio raíz de su sitio:

User-agent: * 
Disallow:/

para limitar el acceso a su sitio para todos los demás, .htaccess es mejor, pero lo que se necesita para definir reglas de acceso , por dirección IP, por ejemplo.

A continuación se presentan los .htaccess reglas para restringir todo el mundo excepto a tu gente de su IP empresa:

Order allow,deny 
# Enter your companies IP address here 
Allow from 255.1.1.1 
Deny from all 
+0

Gracias por eso, la información de robots.txt es realmente útil, me gustaría solo permitir solo el rango de IP de la compañía, pero la aplicación va a ser utilizada por representantes en el camino para que sus ip puedan cambiar todo el tiempo, de lo contrario lo haría ciertamente haz eso. Gracias :-) –

+0

¿Hay forma de bloquear los bots malos también, por ejemplo, identificándolos como bots y no como usuarios y bloqueándolos, ya que no hay razón para que otra persona aparte de un ser humano acceda al sitio web? –

+0

@IainSimpson Podría intentar denegar 'bots' en función de userAgent, pero sería fácil burlarlo y es muy probable que los bots malos no se identifiquen a sí mismos como bots para empezar ... –

7

Usando robots.txt para mantener un sitio de índices de los motores de búsqueda tiene one minor and little-known problem: si alguien enlaces a su sitio desde cualquier página indexada por Google (que debería ocurrir para que Google encuentre su sitio de todos modos, robots.txt o no), Google may still index the link y muéstrela como parte de sus resultados de búsqueda, incluso si no les permite buscar la página a la que apunta el enlace .

Si esto podría ser un problema para usted, la solución es no uso robots.txt, pero en lugar de incluir una etiqueta meta robots con el valor noindex,nofollow en cada página en su sitio. Incluso puede hacer esto en un archivo usando .htaccessmod_headers y la cabecera HTTP X-Robots-Tag:

Header set X-Robots-Tag noindex,nofollow 

Esta directiva se sumará la cabecera X-Robots-Tag: noindex,nofollow a todas las páginas que se aplica, incluyendo las páginas que no sean HTML como imágenes. Por supuesto, es posible que desee incluir la etiqueta meta HTML correspondiente también, por si acaso (que es un estándar antiguo, y por lo que presumiblemente más ampliamente aceptada):

<meta name="robots" content="noindex,nofollow" /> 

Tenga en cuenta que si usted hace esto, el robot de Google seguirá intentando para rastrear cualquier enlace que encuentre en su sitio, ya que necesita buscar la página antes de ver el encabezado/metaetiqueta. Por supuesto, algunos podrían considerar esto una característica en lugar de un error, ya que le permite consultar sus registros de acceso para ver si Google ha encontrado algún vínculo a su sitio.

En cualquier caso, hagas lo que hagas, ten en cuenta que es difícil mantener el secreto de un sitio "secreto" por mucho tiempo. A medida que pasa el tiempo, la probabilidad de que uno de sus usuarios filtre accidentalmente un enlace al sitio se acerca al 100%, y si hay alguna razón para suponer que alguien estaría interesado en encontrar el sitio, debe suponer que lo hará. Por lo tanto, asegúrese de que también ponga los controles de acceso adecuados en su sitio, mantenga el software actualizado y ejecute controles de seguridad regulares en él.

+3

Esto es similar a una mayor seguridad en su casa poniendo un letrero en las puertas/ventanas que dice: "Ladrones, no mires esta casa". El ladrón dice: "lol". –

+0

Esto no es realmente sobre 'seguridad', se trata de resultados de búsqueda sensatas. Escribí una Wiki temprana, y tan pronto como Google la encontró, todos los historiales de página, las diferencias con versiones anteriores y las páginas de 'edición' fueron indexadas, no lugares amigables para que los usuarios aterricen. Eliminar las páginas 'editar' e 'historial' de la historia de Google no las hace más seguras, pero ayuda a mantener esa basura fuera de Google y ayuda a los usuarios a llegar al lugar correcto. – Galax

0

Si la seguridad es su preocupación, y el bloqueo a las direcciones IP no es viable, debe buscar la necesidad de que los usuarios se autentiquen de alguna manera para acceder a su sitio.

Eso significaría que cualquier persona (google, bot, persona-que-tropezó-con-un-enlace) que no está autenticada, no podría acceder a sus páginas.

Puede copiarlo en su sitio web o utilizar la Autenticación básica HTTP.

https://www.httpwatch.com/httpgallery/authentication/

Cuestiones relacionadas