2009-07-20 9 views
11

Sé que el algoritmo de búsqueda de Google se basa principalmente en pagerank. Sin embargo, también realiza análisis y utiliza la estructura del documento H1, H2, title y otras etiquetas HTML para mejorar los resultados de búsqueda.¿Cómo usa Google las etiquetas HTML para mejorar el motor de búsqueda?

¿Cuál es el nombre de esta técnica "que utiliza la estructura del documento para mejorar los resultados de búsqueda"?

¿Y hay documentos académicos que me ayuden a estudiar esta área?

El hecho de que Google tenga en cuenta la estructura HTML está bien cubierto en los artículos de SEO, pero no pude encontrarlo en los documentos académicos.

+0

supongo que básicamente analiza la página HTML para leer el contenido. En Perl- http://search.cpan.org/dist/HTML-Parser/ –

Respuesta

17

creo que se llama "Semantic Markup"

[...] es el marcado semántico marcado que es lo suficientemente descriptivo como para permitir que nosotros y las máquinas que se programa para reconocer y tomar decisiones al respecto. En otras palabras, el marcado significa algo cuando podemos identificarlo y hacer cosas útiles con él. De esta forma, el marcado semántico se convierte en algo más que meramente descriptivo. Se convierte en un mecanismo brillante que permite que tanto los humanos como las máquinas "entiendan" la misma información. http://www.digital-web.com/articles/writing_semantic_markup/

Un artículo más práctico aquí http://robertnyman.com/2007/10/29/explaining-semantic-mark-up/

+3

No veo la relevancia del marcado semántico para la pregunta del OP a menos que también pueda demuestre que esto tiene cierta relevancia para los motores de búsqueda. – cletus

+2

@cletus: el uso del marcado semántico, como <h1> para el encabezado principal, permite que un motor de búsqueda tenga mayor certeza sobre la estructura de la página, lo que influye en su clasificación de esa página para los términos de búsqueda relevantes. Aunque los motores de búsqueda son buenos para usar la heurística para adivinar la estructura de las páginas que no usan el marcado semántico, definitivamente toman nota del marcado semántico cuando lo encuentran. La Guía de inicio de SEO de Google http://googlewebmastercentral.blogspot.com/2008/11/googles-seo-starter-guide.html incluye una sección titulada "Usar las etiquetas de título de forma adecuada". – NickFitz

12

SEO se ha convertido casi en una religión para algunas personas donde se obsesionan con minucias. Francamente, no estoy convencido de que todo este esfuerzo esté justificado.

Mi consejo? Ignora lo que dicen los llamados expertos y simplemente sigue Google's guidelines.

Es posible que esté buscando una respuesta académica pero, sinceramente, esta no es una pregunta académica más allá de los conceptos básicos de cómo funciona la indexación web. La realidad de un algoritmo moderno de indexación y clasificación de páginas es mucho más complejo.

Es posible que desee mirar uno de los anteriores works on search engines. Tenga en cuenta los nombres de los autores. También puede leer Google Patent application 20050071741.

Dejando de lado estos principios generales, Google's search algorithm is constantly tweaked según los resultados reales y deseados. El funcionamiento exacto es un secreto muy bien guardado solo para dificultar que la gente juegue con el sistema. Gran parte de los "consejos" o descripciones sobre cómo funciona el algoritmo de búsqueda de Google es pura suposición.

Así que, aparte de tener un título y tener un HTML bien formado y válido, no creo que encuentre lo que está buscando.

+1

OP busca específicamente el trabajo académico sobre el tema, no necesariamente solo cómo mejorar el Page Rank. –

+2

-1: Si bien estoy de acuerdo con la opinión, esta respuesta no aborda la pregunta del OP. – Joel

+1

Gracias por su consejo, pero estoy buscando específicamente el trabajo académico sobre el tema, como lo que dijo Chris, gracias por su contribución y gracias a Chris por explicar mi pregunta de una mejor manera – ahmed

1

Como dijo cletus, sigue las directrices de google.

Hice algunas pruebas y llegué a la conclusión de que los títulos title, image alt y h son los más importantes. También vale la pena mencionar es google adsense. Tenía la sensación de que si implementa esto, aumentaría el rango de su sitio.

+1

Como dijo Chris "Estoy buscando específicamente trabajo académico sobre el tema, no necesariamente solo cómo obtener un mejor rango de página" Gracias por su consejo – ahmed

1

creo que lo que le interesa se llama estructural-huellas dactilares, y que a menudo se utiliza para determinar la similitud de dos estructuras. En el caso de Google, aplicar un peso a diferentes etiquetas y aplicar a un algoritmo secreto que (probablemente) usa las frecuencias de los diferentes elementos en la huella digital.Esto está profundamente encamina de teoría de la información - si usted está buscando para trabajos académicos sobre teoría de la información, me gustaría empezar con "A Mathematical Theory of Communication" por Claude Shannon

4

Google deliberadamente no proporciona demasiada información sobre su algoritmo de búsqueda, por lo que es poco probable que encuentre una respuesta definitiva o un documento académico que lo confirme. Si está interesado desde un punto de vista SEO, simplemente escriba sus páginas para que sean buenas para los humanos y los robots también las quieran.

para hacer una página bueno para los seres humanos, se debe utilizar etiquetas tales como H1, H2 y así sucesivamente para crear una página desembolso jerárquica ... un poco como esto ...

h1 "Contacto" ... h2 "Detalles de contacto" ...... h3 "Números de teléfono" ...... h3 "Direcciones de correo electrónico" ... h2 "Cómo encontrarnos" ...... h3 "En coche" ...... h3 "En tren"

La dificultad de su pregunta es que si coloca algo en su etiqueta h1 con la esperanza de que aumente su posición en Google, pero no lo hizo t ma con otro contenido en su página, podría parecer que está enviando spam. Del mismo modo, si su página está formada por demasiados encabezados y no tiene suficiente contenido real, podría parecer que está enviando correo no deseado. ¡No es tan simple como agregar una etiqueta h1 y h2 y subirás! Es por eso que necesitas escribir sitios web para humanos, no robots.

+0

la idea es brillante, +1 para la única respuesta correcta, como se dice, "desarrollada para humanos, no robots" –

2

También puede probar a buscar en la sección 'Informática' de arXiv: http://arxiv.org de "búsqueda motor "y los diversos términos que otros han sugerido.

Contiene muchos documentos académicos, todos de libre acceso ... con suerte algunos de ellos serán relevantes para su investigación. (. Por supuesto, la advertencia de validación se aplica el contenido de cualquier tipo de papel)

0

Me pareció interesante que - sin palabras clave meta ni descripción proporcionada - en un scenatio así:

<p>Some introduction</p> 
<h1>headline 1</h1> 
<p>text for section one</p> 

siempre el "texto de la sección uno "se muestra en la página de resultados de búsqueda.

1

En resumen; muy cuidadosamente.En larga:

Presupuesto de anatomy of a large-scale hypertextual erb search engine:

[...] Esto nos da un poco limitada búsquedas de frases, siempre y cuando no hay que muchos anclajes para una palabra en particular. Esperamos actualizar la forma en que se almacenan los hits de anclaje para permitir mayor resolución en la posición y campos docIDhash. Utilizamos tamaño de la fuente relación con el resto del documento porque cuando se busca, no desea alinear por lo demás idénticos documentos de manera diferente sólo porque una de los documentos está en un fuente más grande. [...]

Continúa:

[...] Otra gran diferencia entre la web y colecciones tradicionales bien controlados es que no es prácticamente ningún control sobre lo personas pueden poner en la web. Pareja esta flexibilidad para publicar cualquier cosa con la enorme influencia de búsqueda motores para enrutar el tráfico y las compañías la que deliberadamente manipular búsqueda motores para el beneficio es un serio problema . Este problema no se ha abordado en en los sistemas tradicionales de recuperación de información . Además, es interesante observar que gran parte de metadatos esfuerzos han fracasado con los motores de búsqueda web, ya que cualquier texto en la página que no es directamente representado al usuario se abusa a manipular los motores de búsqueda. [...]

Las direcciones Challenges in a web search engine estos problemas de una manera más moderna:

[...] páginas web en HTML caída en el medio de este continuo de la estructura de los documentos, no estar cerca del texto libre ni a datos bien estructurados. En cambio, el marcado HTML proporciona información estructural limitada, normalmente utilizada para controlar el diseño, pero que brinda pistas sobre la información semántica. La información de diseño en HTML puede parecer de utilidad limitada, especialmente en comparación con la información contenida en idiomas como XML que se puede usar para etiquetar contenido, pero de hecho es una fuente particularmente valiosa de metadatos en corpora no confiables como la web. El valor en la información de diseño se deriva del hecho de que es visible para el usuario [...]:

Y añade:

[...] etiquetas HTML pueden ser analizados para lo la información semántica se puede inferir. Además de las etiquetas de encabezado mencionadas anteriormente, hay etiquetas que controlan la cara de la fuente (negrita, cursiva), el tamaño y el color. Estos pueden analizarse para determinar qué palabras del documento el autor cree que son particularmente importantes.Una ventaja del HTML o de cualquier lenguaje de marcado que se corresponda estrechamente con la forma en que se muestra el contenido es que hay menos oportunidades de abuso: es difícil utilizar el marcado HTML de forma que aliente a los motores de búsqueda a pensar que el texto marcado es importante , mientras que para los usuarios parece poco importante. Por ejemplo, el significado fijo de la etiqueta significa que cualquier texto en un contexto HI aparecerá prominentemente en la página web renderizada, por lo que es seguro para los motores de búsqueda sopesar este texto altamente. Sin embargo, la fiabilidad del marcado HTML se ve disminuida por las hojas de estilo en cascada que separan los nombres de las etiquetas de su representación. Se han realizado investigaciones para extraer información de la estructura que posee HTML. Por ejemplo, [Chakrabarti et al, 2001; Chakrabarti, 2001] creó un árbol DOM de una página HTML y usó esta información para aumentar la precisión de la destilación del tema, una técnica de análisis basada en enlaces.

Hay un número de problemas que un motor de búsqueda moderno necesita para combatir, por ejemplo, los esquemas de spam web y blackhat SEO.

Pero incluso en un mundo perfecto, por ejemplo, después de eliminar las manzanas podridas del índice, la red sigue siendo un completo desastre porque nadie tiene estructuras idénticas. Hay mapas, juegos, videos, fotos (flickr) y mucho y mucho contenido generado por los usuarios. En otras palabras, la web sigue siendo muy impredecible.

Recursos

1

para mantenerlo dolorosamente simple. Haga que su arquitectura de información sea lógica. Si los elementos más importantes para la comprensión del usuario se resaltan con títulos y se agrupan lógicamente, entonces el documento es más fácil de interpretar utilizando algoritmos de procesamiento de información. Mágicamente, también será más fácil para los usuarios interpretar. Recuerde que los algoritmos del motor de búsqueda fueron escritos por personas que intentaban interpretar el lenguaje.

El proceso básico es: Escribir bien estructurado HTM L - utilizando etiquetas de encabezado para indicar los elementos más críticos en la página. Use etiquetas lógicas basadas en la estructura de su información. Listas para listas, encabezados para temas principales.

Suministro etiquetas alt relevantes y nombres para cualquier elemento visual, y luego use css simple para organizar estos elementos.

Si el sitio funciona bien para los usuarios y contiene información relevante, no se arriesga a convertirse en un spammer de la lista negra, y los algoritmos de los motores de búsqueda favorecerán su página.

Disfruté mucho del libro Transcending CSS para una explicación clara de HTML adecuadamente estructurado.

0

Nueva etiqueta para el uso CANÓNICA llama ahora también puede ser utilizado, de Google, haga clic HERE

Cuestiones relacionadas