2011-12-05 18 views
11

Algunos servidores tienen un archivo robots.txt para evitar que los rastreadores web rastreen sus sitios web. ¿Hay alguna manera de hacer que un rastreador web ignore el archivo robots.txt? Estoy usando Mechanize para Python.Web Crawler: ¿Ignora el archivo Robots.txt?

+3

Si hace esto, es probable que haya problemas legales –

+3

No haga esto. –

+8

Downvoting esto es malo, ya que es una pregunta legítima. Sin embargo, esta es una mala idea. –

Respuesta

26

El documentation para mecanizar tiene este código de ejemplo:

br = mechanize.Browser() 
.... 
# Ignore robots.txt. Do not do this without thought and consideration. 
br.set_handle_robots(False) 

que hace exactamente Lo que quieras.

+0

Sugiero plantear su problema en [marcar esta pregunta] (http://stackoverflow.com/questions/8373398/creating-replacement-tapplication-for-experimentation) en meta una vez más. Parece haber diferentes opiniones sobre cómo se deben manejar las sospechas de violación de derechos de autor, y una respuesta definitiva ayudaría. – NullUserException

+0

@NullUser hará. Intentaré reunir en un solo lugar todos los consejos contradictorios que he tenido, y ver si no todos podemos llegar a un punto de vista común. –

8

This se parece a lo que necesita:

from mechanize import Browser 
br = Browser() 

# Ignore robots.txt 
br.set_handle_robots(False) 

pero ya sabes lo que estás haciendo ...