Quiero leer el texto de una página web. No quiero obtener el código HTML de la página web. He encontrado este código:¿Cómo leer un texto de una página web con Java?
try {
// Create a URL for the desired page
URL url = new URL("http://www.uefa.com/uefa/aboutuefa/organisation/congress/news/newsid=1772321.html#uefa+moving+with+tide+history");
// Read all the text returned by the server
BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));
String str;
while ((str = in.readLine()) != null) {
str = in.readLine().toString();
System.out.println(str);
// str is one line of text; readLine() strips the newline character(s)
}
in.close();
} catch (MalformedURLException e) {
} catch (IOException e) {
}
pero este código me da el código HTML de la página web. Quiero obtener el texto completo dentro de esta página. ¿Cómo puedo hacer esto con Java?
Simplemente analiza el texto de las etiquetas HTML. Desde allí puede encontrar la información que desea y extraerla de allí. –
Si está buscando HTML a DOM, http://stackoverflow.com/questions/457684/reading-html-file-to-dom-tree-using-java puede ayudarlo. –
FYI - Usted está llamando a in.readLine() dos veces por iteración, por lo que en realidad se salta todas las líneas impares. (Solo pensé que debería señalar el error en este código ya que es uno de los primeros resultados de una búsqueda en Google al leer páginas web con Java). – JPProgrammer