Bueno, estoy intentando averiguar cómo obtener información de una página web y llevarla a mi programa (en Java).¿Cómo "escanear" un sitio web (o página) para obtener información y ponerlo en mi programa?
Por ejemplo, si conozco la página exacta de la que quiero información, en aras de la simplicidad una página de artículo de Best Buy, ¿cómo obtendré la información adecuada que necesito de esa página? Al igual que el título, el precio, la descripción?
¿Cómo se llamaría este proceso? No tengo ni idea de comenzar siquiera a investigar esto.
Editar: Bien, estoy corriendo una prueba para el JSoup (el que está publicado por BalusC), pero me siguen dando este error:
Exception in thread "main" java.lang.NoSuchMethodError: java.util.LinkedList.peekFirst()Ljava/lang/Object;
at org.jsoup.parser.TokenQueue.consumeWord(TokenQueue.java:209)
at org.jsoup.parser.Parser.parseStartTag(Parser.java:117)
at org.jsoup.parser.Parser.parse(Parser.java:76)
at org.jsoup.parser.Parser.parse(Parser.java:51)
at org.jsoup.Jsoup.parse(Jsoup.java:28)
at org.jsoup.Jsoup.parse(Jsoup.java:56)
at test.main(test.java:12)
tengo Apache Commons
Usted tiene un problema con LinkedList porque LinkedList.peekFirst apareció en Java 1.6, y parece que usa el oído lier version – zamza
Este proceso se denomina comúnmente "screen scraping" y se usa cuando una API (como SOAP) no está disponible, pero sí una GUI web. Implica que su aplicación pretenda ser un navegador web y analizar las páginas HTML (más o menos) de forma manual. Le sugiero que considere una de las API enumeradas a continuación que automatizan gran parte del análisis sintáctico. –