2011-10-23 8 views
9

Acabo de conocer las maravillas de MozRepl utilizadas en conjunto con WWW :: Mechanize :: Firefox de Perl, y estaba tratando de descubrir cómo usarlo para rastrear GWT páginas (p. ej .: https://www.google.com/offers/home#!details/4bc7fd6bd3feb311/XYW81TXGLA88TR42)Obteniendo HTML renderizado con MozRepl y Mechanize :: Firefox

Lo que realmente quiero es el html renderizado, no el html real. Realmente apreciaría un ejemplo de cómo conseguiría esto.

+0

Parece que puedo representar las partes de la página simplemente haciendo, por ejemplo ,: $ mech-> xpath ('// * [@ id = "goh-content-container"]', one => 1) -> {innerHTML}; Extrañamente, sin embargo, esto no parece funcionar de manera consistente. Ocasionalmente no generará nada, y otras veces generará el HTML. ¿Alguna idea sobre por qué no siempre proporciona resultados? –

+0

Más información: cuando ejecuto un único rastreador, parece que se genera de forma consistente, pero si tengo múltiples interacciones con MozRepl, el resultado parece ser menos consistente. Funcionando en Ubuntu 11.04 con Firefox 7.0.1 –

Respuesta

2

Decidí usar el fantástico PhantomJS para hacer el trabajo. Es increíblemente fácil utilizar Phantom como una herramienta del lado del servidor para obtener el HTML representado de una página web dinámica.

Cuestiones relacionadas