2009-11-23 11 views
22

Hoy se genera mucho contenido en Internet mediante JavaScript (específicamente por llamadas AJAX de fondo). Me preguntaba cómo los rastreadores web como Google los manejan. ¿Están al tanto de JavaScript? ¿Tienen un motor de JavaScript integrado? O simplemente ignoran todo el contenido generado por JavaScript en la página (supongo que es bastante improbable). ¿Las personas usan técnicas específicas para obtener su contenido indexado que de otro modo estaría disponible a través de solicitudes AJAX de fondo a un usuario normal de Internet?cómo rastrean los rastreadores web javascript

+0

http://stackoverflow.com/questions/1739898/html-how-to-get- my-subpages-listed-on-a-google-search Consulte las respuestas aquí para "obtener contenido indexado" –

Respuesta

14

JavaScript es manejado por los rastreadores de Bing y Google. Yahoo usa los datos del rastreador Bing, por lo que también debe manejarse. No busqué en otros buscadores, así que si te importan, debes buscarlos.

Bing published guidance in March 2014 cuanto a cómo crear sitios web basadas en JavaScript que trabajan con su rastreador (en su mayoría relacionados con pushState) que son buenas prácticas en general:

Google later published guidance in May 2014 en cuanto a cómo crear páginas web basadas en JavaScript que trabajan con su rastreador, y también se recomiendan sus recomendaciones:

  • No bloquee el código JavaScript (y CSS) en el archivo robots.txt archivo.
  • Asegúrate de que puedes manejar la carga de los rastreadores.
  • Es una buena idea para soportar los navegadores y los rastreadores que no pueden manejar (o usuarios y las organizaciones que no permiten JavaScript)
  • JavaScript Tricky que se basa en características arcanos o específicos de la lengua podría no funcionar con los rastreadores .
  • Si su JavaScript elimina el contenido de la página, es posible que no se indexe. alrededor.
+0

¿El futuro parece que los rastreadores web serán más inteligentes y se enfocarán más en AJAX? –

+0

@Shailesh - Diré a eso definitivamente tal vez. Hablan un poco sobre los desafíos de rastrear JavaScript o los sitios compatibles con AJAX aquí: http://searchengineland.com/google-io-new-advances-in-the-searchability-of-javascript-and-flash-but- is-it-enough-19881 –

+0

Esta respuesta está desactualizada. Googlebot definitivamente maneja JavaScript ahora: http://googlewebmastercentral.blogspot.com/2014/05/understanding-web-pages-better.html No estoy seguro acerca de otros rastreadores, pero creo que es probable que sigan su ejemplo pronto, si ellos no lo han hecho ya – Ajedi32

7

La mayoría de ellos no manejan Javascript de ninguna manera. (Al menos, no todos los rastreadores de los principales motores de búsqueda).

Por esta razón, es importante que su sitio gestione la navegación sin Javascript.

+0

Desafortunadamente, el Google-bot definitivamente se arrastra dentro de JavaScript ... [link] (http: // stackoverflow .com/questions/5749348/jquery-causing-404-errors-in-webmaster-tools-on-a-directory) – Sparky

+0

¿Simplemente no manejan el javascript o ven el sitio web con las etiquetas

2

Precisamente lo que dijo Ben S. Y cualquiera que acceda a su sitio con Lynx tampoco ejecutará JavaScript. Si su sitio está destinado para uso público general, en general, se puede utilizar sin JavaScript.

También, relacionado: si hay páginas que le gustaría encontrar en un motor de búsqueda, y que normalmente solo surgirían de JavaScript, podría considerar generar versiones estáticas de ellas, accesibles mediante un mapa del sitio rastreable, donde estas static las páginas usan JavaScript para cargar la versión actual cuando se accede por un navegador habilitado para JavaScript (en caso de que un humano con un navegador siga su mapa del sitio). El motor de búsqueda verá la forma estática de la página y podrá indexarla.

1

Crawlers no analiza Javascript para saber lo que hace.

Se pueden crear para reconocer algunos fragmentos clásicos como onchange="window.location.href=this.options[this.selectedIndex].value;" o onclick="window.location.href='blah.html';", pero no se preocupan por cosas como el contenido que se obtiene con AJAX. Al menos, todavía no, y el contenido obtenido así siempre será secundario de todos modos.

Por lo tanto, Javascript se debe utilizar únicamente para funcionalidad adicional. El contenido principal que desea que los rastreadores encuentren debe ser texto sin formato en la página y enlaces regulares que los rastreadores pueden seguir fácilmente.

3

He probado esto colocando páginas en mi sitio a las que solo se puede acceder mediante Javascript y luego observando su presencia en los índices de búsqueda.

Las páginas de mi sitio a las que solo se puede acceder mediante Javascript fueron posteriormente indexadas por Google.

El contenido se alcanzó a través de Javascript con una técnica "clásica" o la construcción de una URL y la configuración de la ventana. Ubicación en consecuencia.

1

rastreadores pueden manejar javascript o ajax llamada, si está utilizando algún tipo de marcos como 'HtmlUnit' o 'selenio'

+0

¿Conoce algún rastreador que haga eso? –

+0

No desea nombrar rastreadores específicos, pero es posible. – Srikanth

Cuestiones relacionadas