Quiero analizar una página web en Groovy y extraer todos los enlaces href y el texto asociado con ella.¿Cómo se analiza una página web y se extraen todos los enlaces href?
Si la página contenían estos enlaces:
<a href="http://www.google.com">Google</a><br />
<a href="http://www.apple.com">Apple</a>
la salida sería:
Google, http://www.google.com<br />
Apple, http://www.apple.com
estoy en busca de una respuesta maravillosa. AKA. ¡La manera fácil!
Este enfoque no funcionará muy bien por una razón simple pero verdadera: por lo general, el sitio web no tiene un XML bien formado. Funcionará en algunos casos, pero no en todos. – MeIr
Aquí hay un buen enlace: http://blog.stannard.net.au/2010/05/12/parsing-html-with-groovy-and-htmlcleaner/ – MeIr