Quería saber cómo raspar las páginas web que usan AJAX para buscar contenido en la página web que se está procesando. Típicamente, un HTTP GET para tales páginas simplemente buscará la página HTML con el código JavaScript incrustado en ella. Pero quiero saber si es posible hacer una consulta programática (preferiblemente Java) para esas páginas y simular un tipo de solicitud de un navegador web para que obtenga el contenido HTML resultante después de las llamadas AJAX.Obtener HTML de páginas web que usan AJAX
Respuesta
Es posible que desee ver en htmlunit
En The Productive Programmer autor Neal Ford sugiere que la herramienta de prueba funcional Selenium se puede utilizar para tareas sin pruebas. Su tarea de inspeccionar HTML después de que la manipulación del DOM ha tenido lugar entra en esta categoría. El selenio incluso te permite automatizar las interacciones con el navegador, por lo que si necesitas hacer clic en algunos botones para activar algunos eventos AJAX, puedes crear una secuencia de comandos. Selenium funciona mediante el uso de un complemento de navegador y un servidor basado en Java. El código de prueba de selenio (o el código que no es de prueba en su caso) se puede escribir en una variedad de idiomas, incluidos java, C# y otros lenguajes .Net, php, perl, python y ruby.
¿Por qué elegir cuando puedes tener ambas cosas? TestPlan admite tanto Selenium como HTMLUnit como back-end. Además, tiene un lenguaje realmente simple para realizar las tareas más comunes (las extensiones se pueden escribir en Java si es necesario, lo que en realidad es raro).
- 1. páginas Web que simplemente páginas demasiada materia
- 2. Cargando rápidamente páginas web
- 3. ¿Por qué algunos sitios web importantes usan HTML no válido?
- 4. Administrador de scripts Ajax y páginas maestras
- 5. accediendo a la cámara web en las páginas web
- 6. usando métodos web con páginas maestras
- 7. Python, varios hilos, buscar páginas web, descargar páginas web
- 8. ¿Cómo buscar páginas web que contengan cierto código fuente?
- 9. HTML especificar páginas de impresión?
- 10. Pruebas unitarias en aplicaciones web que usan bases de datos
- 11. Gráficos en páginas web
- 12. Proyectos que usan py.test
- 13. módulos de GWT y páginas Web
- 14. ¿Cómo se raspan las páginas de AJAX?
- 15. análisis de páginas HTML con HtmlAgilityPack
- 16. Trabajador web HTML y Jquery Ajax llame al
- 17. Apache JMeter no ejecuta el Javascript que se encuentra en las páginas HTML
- 18. ¿Cómo funcionan las aplicaciones que generan imágenes de páginas web?
- 19. Compartir datos entre páginas html
- 20. Ajax: Edificio HTML vs inyectar HTML
- 21. ¿Qué impide que las páginas HTML aprovechen la representación progresiva?
- 22. ¿Cómo hacer que las páginas php/html sean seguras/https?
- 23. Cómo raspar HTTPS javascript páginas web
- 24. ¿Cuál es la forma más rápida de eliminar páginas web HTML en Android?
- 25. cómo incrustar códigos en páginas html
- 26. Asp.net MVC y páginas html normales
- 27. ¿Tiene contenido de páginas web con Python?
- 28. ¿Ajax JSON o HTML?
- 29. Interactuando con páginas web en C#
- 30. Páginas que raspan la pantalla que usan CSS para el diseño y el formato ... ¿cómo raspar el CSS aplicable al html?