Necesita un rastreador. Es bastante trivial para construir uno usted mismo (para pequeñas rastreos!)
- golpeó la primera página (ver más abajo **)
- analizar la página, extraer los enlaces. Para esto necesita un analizador HTML que pueda manejar HTML mal formateado. Pruebe Jericho, TagSoup, CyberNecko o HtmlTidy. Un analizador XML normal probablemente no alterará la mostaza para la mayoría de las páginas HTML, ya que a menudo no están bien formadas en XML.
- busca el enlace que estás buscando. Si no puede encontrarlo, agregue vínculos locales al sitio que no haya visto antes y vuelva al paso 1, repita.
Para un sitio pequeño (unas miles de páginas) probablemente pueda hacer todo esto en la memoria.
** Utilice el java URLConnection o el commons HTTPClient (v4) para realizar las solicitudes.
Nota: encontrar su enlace - los enlaces pueden existir en un sitio en absoluto, local o resueltos a algún href base. Tendrá que dar cuenta de esto cuando busque el suyo. Lo más fácil es traducir todos los enlaces a la forma absoluta, teniendo cuidado de resolver las páginas actuales href base, si tiene una.
Simples.
Se ha actualizado la ubicación del sitio web. bestoftheweb.org no es válido. La página está en botw.org. –