Hoy se genera mucho contenido en Internet mediante JavaScript (específicamente por llamadas AJAX de fondo). Me preguntaba cómo los rastreadores web como Google los manejan. ¿Están al tanto de JavaScript? ¿Tienen un motor de JavaScript integrado? O simplemente ignoran todo el contenido generado por JavaScript en la página (supongo que es bastante improbable). ¿Las personas usan técnicas específicas para obtener su contenido indexado que de otro modo estaría disponible a través de solicitudes AJAX de fondo a un usuario normal de Internet?cómo rastrean los rastreadores web javascript
Respuesta
JavaScript es manejado por los rastreadores de Bing y Google. Yahoo usa los datos del rastreador Bing, por lo que también debe manejarse. No busqué en otros buscadores, así que si te importan, debes buscarlos.
Bing published guidance in March 2014 cuanto a cómo crear sitios web basadas en JavaScript que trabajan con su rastreador (en su mayoría relacionados con pushState
) que son buenas prácticas en general:
- Evitar la creación de enlaces rotos con
pushState
- Evitar la creación de dos diferentes enlaces que enlazan al mismo contenido con
pushState
- Evitar cloaking. (Here's an article Bing published about their cloaking detection in 2007)
- Admite navegadores (y rastreadores) que no pueden controlar
pushState
.
Google later published guidance in May 2014 en cuanto a cómo crear páginas web basadas en JavaScript que trabajan con su rastreador, y también se recomiendan sus recomendaciones:
- No bloquee el código JavaScript (y CSS) en el archivo robots.txt archivo.
- Asegúrate de que puedes manejar la carga de los rastreadores.
- Es una buena idea para soportar los navegadores y los rastreadores que no pueden manejar (o usuarios y las organizaciones que no permiten JavaScript)
- JavaScript Tricky que se basa en características arcanos o específicos de la lengua podría no funcionar con los rastreadores .
- Si su JavaScript elimina el contenido de la página, es posible que no se indexe. alrededor.
¿El futuro parece que los rastreadores web serán más inteligentes y se enfocarán más en AJAX? –
@Shailesh - Diré a eso definitivamente tal vez. Hablan un poco sobre los desafíos de rastrear JavaScript o los sitios compatibles con AJAX aquí: http://searchengineland.com/google-io-new-advances-in-the-searchability-of-javascript-and-flash-but- is-it-enough-19881 –
Esta respuesta está desactualizada. Googlebot definitivamente maneja JavaScript ahora: http://googlewebmastercentral.blogspot.com/2014/05/understanding-web-pages-better.html No estoy seguro acerca de otros rastreadores, pero creo que es probable que sigan su ejemplo pronto, si ellos no lo han hecho ya – Ajedi32
La mayoría de ellos no manejan Javascript de ninguna manera. (Al menos, no todos los rastreadores de los principales motores de búsqueda).
Por esta razón, es importante que su sitio gestione la navegación sin Javascript.
Desafortunadamente, el Google-bot definitivamente se arrastra dentro de JavaScript ... [link] (http: // stackoverflow .com/questions/5749348/jquery-causing-404-errors-in-webmaster-tools-on-a-directory) – Sparky
¿Simplemente no manejan el javascript o ven el sitio web con las etiquetas
Precisamente lo que dijo Ben S. Y cualquiera que acceda a su sitio con Lynx tampoco ejecutará JavaScript. Si su sitio está destinado para uso público general, en general, se puede utilizar sin JavaScript.
También, relacionado: si hay páginas que le gustaría encontrar en un motor de búsqueda, y que normalmente solo surgirían de JavaScript, podría considerar generar versiones estáticas de ellas, accesibles mediante un mapa del sitio rastreable, donde estas static las páginas usan JavaScript para cargar la versión actual cuando se accede por un navegador habilitado para JavaScript (en caso de que un humano con un navegador siga su mapa del sitio). El motor de búsqueda verá la forma estática de la página y podrá indexarla.
Crawlers no analiza Javascript para saber lo que hace.
Se pueden crear para reconocer algunos fragmentos clásicos como onchange="window.location.href=this.options[this.selectedIndex].value;"
o onclick="window.location.href='blah.html';"
, pero no se preocupan por cosas como el contenido que se obtiene con AJAX. Al menos, todavía no, y el contenido obtenido así siempre será secundario de todos modos.
Por lo tanto, Javascript se debe utilizar únicamente para funcionalidad adicional. El contenido principal que desea que los rastreadores encuentren debe ser texto sin formato en la página y enlaces regulares que los rastreadores pueden seguir fácilmente.
He probado esto colocando páginas en mi sitio a las que solo se puede acceder mediante Javascript y luego observando su presencia en los índices de búsqueda.
Las páginas de mi sitio a las que solo se puede acceder mediante Javascript fueron posteriormente indexadas por Google.
El contenido se alcanzó a través de Javascript con una técnica "clásica" o la construcción de una URL y la configuración de la ventana. Ubicación en consecuencia.
rastreadores pueden manejar javascript o ajax llamada, si está utilizando algún tipo de marcos como 'HtmlUnit' o 'selenio'
¿Conoce algún rastreador que haga eso? –
No desea nombrar rastreadores específicos, pero es posible. – Srikanth
- 1. Detección de rastreadores web "ocultos"
- 2. Protección del contenido del sitio web de los rastreadores
- 3. ¿Hay una lista de rastreadores web conocidos?
- 4. ¿Cómo rastrean los datos demográficos de Alexa y Google Analytics?
- 5. Proteger las direcciones de correo electrónico de los robots de spam/rastreadores web
- 6. ¿Cómo bloquear bots no identificados que se rastrean en mi sitio web?
- 7. ¿Los rastreadores de Google interpretan Javascript? ¿Qué sucede si cargo una página a través de AJAX?
- 8. ¿Puedo bloquear los rastreadores de búsqueda para cada sitio en un servidor web Apache?
- 9. has_one y has_many en el mismo modelo. ¿Cómo los raíles los rastrean?
- 10. Tiene una ventana emergente javascript modal (como fancybox) que afecta a los rastreadores seo
- 11. ¿Los rastreadores web modernos usan el evento click o navegan directamente a href en etiquetas de anclaje?
- 12. ¿Cómo las empresas SaaS verifican y rastrean el código que lanzan a los clientes?
- 13. ¿Los desarrolladores web deberían aprender JavaScript?
- 14. google analytics - varios rastreadores en una página (conflicto de cookies)
- 15. ¿Cómo se permite a los rastreadores acceder a index.php únicamente, utilizando robots.txt?
- 16. servidor web Javascript?
- 17. ¿Qué tipo de host web le permite ejecutar rastreadores en él?
- 18. Cómo raspar HTTPS javascript páginas web
- 19. Herramienta agregante para múltiples rastreadores heterogéneos de errores/problemas?
- 20. Cómo pasar funciones a JavaScript Web Worker
- 21. javascript web workers: ¿cómo paso argumentos?
- 22. ¿Los rastreadores de Google y Bing tratan las etiquetas hash en las URL como parámetros GET?
- 23. posibles protocolos web en javascript
- 24. nodejs raspado sitio web después de Javascript cargado los valores
- 25. ¿Cómo pruebo los servicios web?
- 26. ¿Cómo funcionan los servidores web?
- 27. 100% Javascript Web Framework
- 28. cómo interceptar los cambios innerHTML en javascript?
- 29. ¿Qué rastreadores usb (software) están disponibles para Windows?
- 30. acceso Javascript otra página web
http://stackoverflow.com/questions/1739898/html-how-to-get- my-subpages-listed-on-a-google-search Consulte las respuestas aquí para "obtener contenido indexado" –