Estoy tratando de rastrear el contenido de los sitios web de pujas, pero no puedo buscar la página completa del sitio web. Estoy usando palanca en xulrunner para ir a buscar la página primero (ya que ajax carga ciertos elementos de forma perezosa) y luego raspar del archivo. Pero en la página principal del sitio web de bidrivals, esto falla incluso cuando el archivo local está bien formado. jSoup simplemente parece terminar con '...' caracteres a mitad de camino en el código html. Si alguien ha encontrado esto antes, por favor ayuda. Se requiere el siguiente código para [this link].Jsoup buscando una página parcial
File f = new File(projectLocation+logFile+"bidrivalsHome");
try {
f.createNewFile();
log.warn("Trying to fetch mainpage through a console.");
WinRedirect.redirect(projectLocation+"Curl.exe -s --data \"url="+website+"&delay="+timeDelay+"\" http://127.0.0.1:10000", projectLocation, logFile+"bidrivalsHome");
} catch (Exception e) {
e.printStackTrace();
log.warn("Error in fetching the nameList", e);
}
Document doc = new Document("");
try {
doc = Jsoup.parse(f, "UTF-8", website);
} catch (IOException e1) {
System.out.println("Error while parsing the document.");
e1.printStackTrace();
log.warn("Error in parsing homepage", e1);
}
Se puede publicar el código que está utilizando que genera el '' ...? –
Agregó el código. Además, lo mismo se exhibe a través de jSoup.connect (url) .get() – sumit
@submit: Pero aquí ha construido el documento. ¿Dónde exactamente aparece ...? –