Algunos servidores tienen un archivo robots.txt para evitar que los rastreadores web rastreen sus sitios web. ¿Hay alguna manera de hacer que un rastreador web ignore el archivo robots.txt? Estoy usando Mechanize para Python.Web Crawler: ¿Ignora el archivo Robots.txt?
Respuesta
El documentation para mecanizar tiene este código de ejemplo:
br = mechanize.Browser()
....
# Ignore robots.txt. Do not do this without thought and consideration.
br.set_handle_robots(False)
que hace exactamente Lo que quieras.
Sugiero plantear su problema en [marcar esta pregunta] (http://stackoverflow.com/questions/8373398/creating-replacement-tapplication-for-experimentation) en meta una vez más. Parece haber diferentes opiniones sobre cómo se deben manejar las sospechas de violación de derechos de autor, y una respuesta definitiva ayudaría. – NullUserException
@NullUser hará. Intentaré reunir en un solo lugar todos los consejos contradictorios que he tenido, y ver si no todos podemos llegar a un punto de vista común. –
This se parece a lo que necesita:
from mechanize import Browser
br = Browser()
# Ignore robots.txt
br.set_handle_robots(False)
pero ya sabes lo que estás haciendo ...
- 1. Java Web Crawler Libraries
- 2. Googlebots ¿Ignoras el archivo robots.txt?
- 3. ¿Qué es una buena herramienta Web Crawler?
- 4. robots.txt dinámico
- 5. ¿Existe algún framework de crawler web java script
- 6. Se ignora el archivo de validación YML
- 7. mono ignora dllmaps en el archivo app.config
- 8. Metaetiqueta frente a robots.txt
- 9. Asp.net Request.Browser.Crawler - Dynamic Crawler List?
- 10. robots.txt parser java
- 11. Googlebot no respeta Robots.txt
- 12. ¿Cómo modifico robots.txt en Plone?
- 13. Robots.txt: permitir solo mayor SE
- 14. Multiple Sitemap: entradas en robots.txt?
- 15. Cómo obedezzco robots.txt
- 16. Sintaxis de Robots.txt no entendida
- 17. Maven war plugin ignora archivo .properties
- 18. Robots.txt para múltiples dominios
- 19. asterisco en robots.txt
- 20. Git ignora el archivo para los proyectos C
- 21. Git ignora el archivo para los proyectos de Xcode 4
- 22. Cómo configurar el archivo robots.txt para bloquear todos los directorios menos 2
- 23. AnkhSVN ignora el patrón
- 24. El servidor Apache ignora .htaccess
- 25. Ruby ignora el rescate ArgumentError
- 26. String.Format (formato, fecha) ignora el formato
- 27. Robots.txt: ¿Es válida esta regla de comodín?
- 28. iexplore.exe.config se ignora
- 29. MVC 4 ignora DefaultModelBinder.ResourceClassKey
- 30. Grep ignora líneas múltiples
Si hace esto, es probable que haya problemas legales –
No haga esto. –
Downvoting esto es malo, ya que es una pregunta legítima. Sin embargo, esta es una mala idea. –