2011-04-06 15 views
9

Estoy tratando de controlar los precios diarios de un catálogo en línea. El sitio usa HTTPS y genera las páginas del catálogo con javascript. ¿Cómo puedo interactuar con el sitio y hacer que genere las páginas que necesito?Cómo raspar HTTPS javascript páginas web

He hecho esto con otros sitios donde se puede acceder fácilmente al HTML, no tengo problemas para analizar el código HTML una vez generado.

Solo conozco Python y Java.

Gracias de antemano.

Respuesta

9

Eche un vistazo a HTMLUnit - un navegador Java sin cabeza que puede ser controlado completamente por su código. Un ejemplo simple se puede ver aquí: http://htmlunit.sourceforge.net/gettingStarted.html

(advertencia obligatoria: al rozar la pantalla del sitio, es posible que esté rompiendo su ToS, y posiblemente se abra a demandas, compruebe si puede hacerlo antes de comenzar)

0

Si han creado una API web con la que interactúan sus JavaScript, es posible que pueda rasparla directamente, en lugar de intentar ir por la ruta HTML.

Si lo han ofuscado o esa opción no está disponible por algún otro motivo, básicamente necesitará un navegador web para evaluar el JavaScript y luego descartar el DOM del navegador. Tal vez escribir un plugin de navegador?

Cuestiones relacionadas