2010-06-02 18 views
11

Estoy tratando de poder probar un sitio web que usa javascript para representar la mayor parte del HTML. Con el navegador HTMLUNIT, ¿cómo podría acceder al html generado por el javascript? Estaba revisando su documentación, pero no estaba seguro de cuál sería el mejor enfoque.Accediendo a html generado por Javascript con htmlunit -Java

WebClient webClient = new WebClient(); 
HtmlPage currentPage = webClient.getPage("some url"); 
String Source = currentPage.asXml(); 
System.out.println(Source); 

Esta es una manera fácil de recuperar el HTML de la página, pero habría que utilizar el DOMNode u otra forma de acceder al código HTML generado por el javascript?

Respuesta

9

Tienes que dar algo de tiempo para la ejecución de JavaScript.

Consulte un ejemplo de código de trabajo a continuación. bucketdiv s no están en la fuente original.

import java.io.IOException; 
import java.net.MalformedURLException; 
import java.util.List; 
import com.gargoylesoftware.htmlunit.*; 
import com.gargoylesoftware.htmlunit.html.HtmlPage; 

public class GetPageSourceAfterJS { 
    public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException { 
     java.util.logging.Logger.getLogger("com.gargoylesoftware").setLevel(java.util.logging.Level.OFF); /* comment out to turn off annoying htmlunit warnings */ 
     WebClient webClient = new WebClient(); 
     String url = "http://www.futurebazaar.com/categories/Home--Living-Luggage--Travel-Airbags--Duffel-bags/cid-CU00089575.aspx"; 
     System.out.println("Loading page now: "+url); 
     HtmlPage page = webClient.getPage(url); 
     webClient.waitForBackgroundJavaScript(30 * 1000); /* will wait JavaScript to execute up to 30s */ 

     String pageAsXml = page.asXml(); 
     System.out.println("Contains bucket? --> "+pageAsXml.contains("bucket")); 

     //get divs which have a 'class' attribute of 'bucket' 
     List<?> buckets = page.getByXPath("//div[@class='bucket']"); 
     System.out.println("Found "+buckets.size()+" 'bucket' divs."); 

     //System.out.println("#FULL source after JavaScript execution:\n "+pageAsXml); 
    } 
} 

Salida: Versión

Loading page now: http://www.futurebazaar.com/categories/Mobiles-Mobile-Phones/cid-CU00089697.asp‌​x?Rfs=brandZZFly001PYXQcurtrayZZBrand 
Contains bucket? --> true 
Found 3 'bucket' divs. 

HtmlUnit utilizado:

<dependency> 
    <groupId>net.sourceforge.htmlunit</groupId> 
    <artifactId>htmlunit</artifactId> 
    <version>2.12</version> 
</dependency> 
Cuestiones relacionadas