2008-09-03 16 views
11

¿Qué utilizan los robots de los motores de búsqueda como punto de partida? ¿Es la búsqueda de DNS o comienzan con una lista fija de sitios conocidos? ¿Alguna suposición o sugerencia?¿Dónde comienzan a rastrear los motores de búsqueda?

+0

Esta pregunta parece estar fuera de tema porque no se trata de programación. Consulte [Qué temas puedo preguntar aquí] (http://stackoverflow.com/help/on-topic) en el Centro de ayuda. Tal vez [Web Apps Stack Exchange] (http://webapps.stackexchange.com/) sería un mejor lugar para preguntar. – jww

Respuesta

8

Su pregunta puede ser interpretado de dos maneras:

lo preguntas donde los motores de búsqueda comienzan su rastreo de en general, o donde empiezan a rastrear un sitio en particular?

No sé cómo funcionan los grandes jugadores; pero si tuvieras que hacer tu propio motor de búsqueda, probablemente lo incluirías en sitios de portales populares. DMOZ.org parece ser un punto de partida popular. Dado que los grandes jugadores tienen mucha más información que nosotros, probablemente comiencen sus rastreos desde una variedad de lugares.

Si está preguntando dónde un SE comienza a rastrear su sitio en particular, probablemente tenga mucho que ver con cuáles de sus páginas son las más populares. Imagino que si tiene una página súper popular a la que se enlazan muchos otros sitios, entonces esa sería la página desde la que comenzarán las PE porque habrá muchos más puntos de entrada desde otros sitios.

Tenga en cuenta que no estoy en SEO ni nada; Acabo de estudiar el tráfico de bots y SE por un tiempo para un proyecto en el que estaba trabajando.

4

Puede enviar su sitio a los motores de búsqueda usando su site submission forms - esto lo llevará a su sistema. Cuando te quedas arrastrado después de eso, es imposible decirlo: por experiencia, generalmente es alrededor de una semana más o menos para un rastreo inicial (página de inicio, un par de páginas más de 1 enlace desde allí). Puede aumentar la cantidad de páginas rastreadas e indexadas utilizando una estructura de enlace semántico clara y enviando un sitemap; estas le permiten enumerar todas sus páginas y ponderarlas una con respecto a la otra, lo que ayuda a los motores de búsqueda a comprender la importancia que tiene cada parte del sitio en relación con los demás.

Si su sitio está vinculado desde otros sitios web rastreados, también se rastreará su sitio, comenzando con la página vinculada y, finalmente, extendiéndose al resto de su sitio. Esto puede llevar mucho tiempo y depende de la frecuencia de rastreo de los sitios de enlace, por lo que el envío de URL es la manera más rápida de informarle a Google acerca de usted.

Una herramienta que no puedo recomendar es la Google Webmaster Tool. Le permite ver con qué frecuencia ha sido rastreado, cualquier error con el que haya tropezado el googlebot (enlaces rotos, etc.) y tiene una gran cantidad de otras herramientas útiles allí.

2

En principio, comienzan con nada. Solo cuando alguien explícitamente les dice que incluyan su sitio web, pueden comenzar a rastrear este sitio y usar los enlaces en ese sitio para buscar más.

Sin embargo, en la práctica los creadores de un motor de búsqueda colocarán en algunos sitios arbitrarios en los que puedan pensar. Por ejemplo, sus propios blogs o los sitios que tienen en sus marcadores.

En teoría, también podría elegir algunas direcciones aleatorias y ver si hay un sitio web allí. Dudo que alguien haga esto; el método anterior funcionará bien y no requiere codificación adicional solo para arrancar el motor de búsqueda.

Cuestiones relacionadas