En resumen; muy cuidadosamente.En larga:
Presupuesto de anatomy of a large-scale hypertextual erb search engine:
[...] Esto nos da un poco limitada búsquedas de frases, siempre y cuando no hay que muchos anclajes para una palabra en particular. Esperamos actualizar la forma en que se almacenan los hits de anclaje para permitir mayor resolución en la posición y campos docIDhash. Utilizamos tamaño de la fuente relación con el resto del documento porque cuando se busca, no desea alinear por lo demás idénticos documentos de manera diferente sólo porque una de los documentos está en un fuente más grande. [...]
Continúa:
[...] Otra gran diferencia entre la web y colecciones tradicionales bien controlados es que no es prácticamente ningún control sobre lo personas pueden poner en la web. Pareja esta flexibilidad para publicar cualquier cosa con la enorme influencia de búsqueda motores para enrutar el tráfico y las compañías la que deliberadamente manipular búsqueda motores para el beneficio es un serio problema . Este problema no se ha abordado en en los sistemas tradicionales de recuperación de información . Además, es interesante observar que gran parte de metadatos esfuerzos han fracasado con los motores de búsqueda web, ya que cualquier texto en la página que no es directamente representado al usuario se abusa a manipular los motores de búsqueda. [...]
Las direcciones Challenges in a web search engine estos problemas de una manera más moderna:
[...] páginas web en HTML caída en el medio de este continuo de la estructura de los documentos, no estar cerca del texto libre ni a datos bien estructurados. En cambio, el marcado HTML proporciona información estructural limitada, normalmente utilizada para controlar el diseño, pero que brinda pistas sobre la información semántica. La información de diseño en HTML puede parecer de utilidad limitada, especialmente en comparación con la información contenida en idiomas como XML que se puede usar para etiquetar contenido, pero de hecho es una fuente particularmente valiosa de metadatos en corpora no confiables como la web. El valor en la información de diseño se deriva del hecho de que es visible para el usuario [...]:
Y añade:
[...] etiquetas HTML pueden ser analizados para lo la información semántica se puede inferir. Además de las etiquetas de encabezado mencionadas anteriormente, hay etiquetas que controlan la cara de la fuente (negrita, cursiva), el tamaño y el color. Estos pueden analizarse para determinar qué palabras del documento el autor cree que son particularmente importantes.Una ventaja del HTML o de cualquier lenguaje de marcado que se corresponda estrechamente con la forma en que se muestra el contenido es que hay menos oportunidades de abuso: es difícil utilizar el marcado HTML de forma que aliente a los motores de búsqueda a pensar que el texto marcado es importante , mientras que para los usuarios parece poco importante. Por ejemplo, el significado fijo de la etiqueta significa que cualquier texto en un contexto HI aparecerá prominentemente en la página web renderizada, por lo que es seguro para los motores de búsqueda sopesar este texto altamente. Sin embargo, la fiabilidad del marcado HTML se ve disminuida por las hojas de estilo en cascada que separan los nombres de las etiquetas de su representación. Se han realizado investigaciones para extraer información de la estructura que posee HTML. Por ejemplo, [Chakrabarti et al, 2001; Chakrabarti, 2001] creó un árbol DOM de una página HTML y usó esta información para aumentar la precisión de la destilación del tema, una técnica de análisis basada en enlaces.
Hay un número de problemas que un motor de búsqueda moderno necesita para combatir, por ejemplo, los esquemas de spam web y blackhat SEO.
Pero incluso en un mundo perfecto, por ejemplo, después de eliminar las manzanas podridas del índice, la red sigue siendo un completo desastre porque nadie tiene estructuras idénticas. Hay mapas, juegos, videos, fotos (flickr) y mucho y mucho contenido generado por los usuarios. En otras palabras, la web sigue siendo muy impredecible.
Recursos
supongo que básicamente analiza la página HTML para leer el contenido. En Perl- http://search.cpan.org/dist/HTML-Parser/ –