Java Web Crawler Libraries

Quería hacer un rastreador web basado en Java para un experimento. Escuché que crear un Web Crawler en Java era el camino a seguir si es la primera vez. Sin embargo, tengo dos preguntas importantes.Java Web Crawler Libraries

¿Cómo mi programa 'visitará' o 'conectará' a las páginas web? Por favor, da una breve explicación. (Entiendo los conceptos básicos de las capas de abstracción desde el hardware hasta el software, aquí estoy interesado en las abstracciones de Java)
¿Qué bibliotecas debo usar? Asumiría que necesito una biblioteca para conectarme a páginas web, una biblioteca para el protocolo HTTP/HTTPS y una biblioteca para analizar HTML.

Fuente

2012-07-01 CodeKingPlusPlus

así es como el programa de 'visita' o 'conectar' a las páginas web.

URL url; 
    InputStream is = null; 
    DataInputStream dis; 
    String line; 

    try { 
     url = new URL("http://stackoverflow.com/"); 
     is = url.openStream(); // throws an IOException 
     dis = new DataInputStream(new BufferedInputStream(is)); 

     while ((line = dis.readLine()) != null) { 
      System.out.println(line); 
     } 
    } catch (MalformedURLException mue) { 
     mue.printStackTrace(); 
    } catch (IOException ioe) { 
     ioe.printStackTrace(); 
    } finally { 
     try { 
      is.close(); 
     } catch (IOException ioe) { 
      // nothing to see here 
     } 
    }

Esto descargará la fuente de la página html.

Para análisis de HTML ver this

también echar un vistazo a jSpider y jsoup

Fuente

2012-07-01 13:51:35

Entonces, ¿esto extraer información de una página, o simplemente ir a la página? Estoy intentando escribir un rastreador que tomará la información del usuario, vaya a maps.google.com, inserte la dirección y tome el tiempo de ruta y la longitud de la ruta y tráigala al programa. es posible? – Ungeheuer

@Adrian eche un vistazo a la API de Google Maps: https://developers.google.com/maps/documentation/distance-matrix/start –

recomiendo que utilice el HttpClient library. Puede encontrar ejemplos here.

Fuente

2012-07-01 13:58:45 Benoit

Puede explore.apache Nutch androide o Apache para conseguir la sensación de Java basada rastreador

Fuente

2012-07-01 18:06:08 Sid

Crawler4j es la mejor solución para usted,

Crawler4j es un rastreador de código abierto de Java que proporciona una interfaz simple para rastrear la web. ¡Puede configurar un rastreador web de subprocesos múltiples en 5 minutos!

También visit. para obtener más herramientas de rastreo web basadas en Java y una breve explicación de cada una.

Fuente

2012-11-18 01:46:19 cuneytykaya

Para analizar el contenido, estoy usando Apache Tika.

Fuente

2012-12-10 14:37:22 Waji

Aunque se utiliza principalmente para aplicaciones web Unit Testing, HttpUnit atraviesa un sitio web, hace clic en enlaces, analiza tablas y elementos, y le da metadatos sobre todas las páginas. Lo uso para Web Crawling, no solo para Unit Testing. - http://httpunit.sourceforge.net/

Fuente

2014-02-18 17:50:25 fandang

Preferiría crawler4j. Crawler4j es un rastreador de código abierto de Java que proporciona una interfaz simple para rastrear la Web. Puede configurar un rastreador web multiproceso en pocas horas.

Fuente

2014-02-22 01:02:43