2010-06-29 15 views

Respuesta

5

Heritrix es un rastreador web de código abierto escrito en Java. Al mirar a través de su javadoc, veo que tienen una clase de utilidad Robotstxt para analizar el archivo robots.txt.

+0

Hay un error en Robotstxt. Por favor no lo use. Perdió mucho tiempo. A un archivo como este: Usuario-agente: * No permitir:/ Permitir todo el método de Robotstxt dice "verdadero". – 10101010

1

También hay jrobotx library alojado en SourceForge.

(divulgación: escindió el código que forma esa biblioteca.)