2010-02-08 11 views
5

Quería saber cómo raspar las páginas web que usan AJAX para buscar contenido en la página web que se está procesando. Típicamente, un HTTP GET para tales páginas simplemente buscará la página HTML con el código JavaScript incrustado en ella. Pero quiero saber si es posible hacer una consulta programática (preferiblemente Java) para esas páginas y simular un tipo de solicitud de un navegador web para que obtenga el contenido HTML resultante después de las llamadas AJAX.Obtener HTML de páginas web que usan AJAX

Respuesta

3

En The Productive Programmer autor Neal Ford sugiere que la herramienta de prueba funcional Selenium se puede utilizar para tareas sin pruebas. Su tarea de inspeccionar HTML después de que la manipulación del DOM ha tenido lugar entra en esta categoría. El selenio incluso te permite automatizar las interacciones con el navegador, por lo que si necesitas hacer clic en algunos botones para activar algunos eventos AJAX, puedes crear una secuencia de comandos. Selenium funciona mediante el uso de un complemento de navegador y un servidor basado en Java. El código de prueba de selenio (o el código que no es de prueba en su caso) se puede escribir en una variedad de idiomas, incluidos java, C# y otros lenguajes .Net, php, perl, python y ruby.

0

¿Por qué elegir cuando puedes tener ambas cosas? TestPlan admite tanto Selenium como HTMLUnit como back-end. Además, tiene un lenguaje realmente simple para realizar las tareas más comunes (las extensiones se pueden escribir en Java si es necesario, lo que en realidad es raro).

Cuestiones relacionadas