Quiero escribir un rastreador web que pueda interpretar JavaScript. Básicamente es un programa en Java o PHP que toma una URL como entrada y saca el árbol DOM que es similar al resultado en la ventana HTML de Firebug. El mejor ejemplo es Kayak.com donde no se puede ver el DOM resultante que se muestra en el navegador cuando se ve 'fuente', pero se puede guardar el HTML resultante a través de Firebug.rastreador web que puede interpretar JavaScript
¿Cómo voy a ir haciendo esto? ¿Qué herramientas existen que me ayuden?
Puede usar Webkit. – Seth
Cool. ¿Cuál es tu pregunta? –
Estoy buscando escribir un rastreador web que pueda ejecutar código JavaScript en la página que estoy tratando de rastrear. Por ejemplo, algunas páginas tienen código JavaScript para llenar la página con datos de una llamada AJAX o de una matriz de JavaScript. Si abre estas páginas en Firefox y hace clic en Ver -> 'Origen de la página', no verá el DOM HTML completo que ve en la ventana del navegador.Pero si tiene Firebug Plugin instalado, puede abrir firebug, hacer clic en la pestaña HTML, hacer clic con el botón derecho en en la ventana de depuración y hacer clic en "Copiar HTML" y pegarlo en un editor de texto, verá el HTML DOM generado por el código JavaScript . – user320662