2011-12-12 11 views

Respuesta

9

Probar crawler4j. Solo necesita implementar una interfaz simple que controle qué URL visitar y qué hacer con cada página rastreada.

+0

Tengo problemas para rastrear sitios web HTTPS utilizando este rastreador ("sitio no respondió "mientras se abre bien en el navegador, etc.) – ed22

5

en java Creo que se reduce a Nutch frente a Heritrix. Debe especificar cuáles son sus necesidades para obtener una mejor respuesta.

Cuestiones relacionadas