2011-08-10 10 views
6

Quiero crear o encontrar un rastreador web de código abierto (spider/bot) escrito en Python. Debe encontrar y seguir enlaces, recopilar metaetiquetas y metadescripciones, títulos de páginas web y la URL de una página web y poner todos los datos en una base de datos MySQL.rastreador web Python con base de datos MySQL

¿Alguien sabe de alguna secuencia de comandos de código abierto que podría ayudarme? Además, si alguien puede darme algunos consejos sobre lo que debería hacer, entonces son más que bienvenidos.

Respuesta

4

sí sé,

bibliotecas

https://github.com/djay/transmogrify.webcrawler

http://code.google.com/p/harvestman-crawler/

http://code.activestate.com/pypm/orchid/

de código abierto rastreador web

http://scrapy.org/

tutoriales

http://www.example-code.com/python/pythonspider.asp

PS No sé si utilizan MySQL porque normalmente python o bien utiliza sqlit o PostgreSQL SQL por lo que si lo desea, puede utilizar las bibliotecas que te di e importar el pitón -mysql module y hazlo: D

http://sourceforge.net/projects/mysql-python/

4

Le sugiero que utilice Scrapy, que es un potente marco de raspado basado en Twisted y lxml. Es especialmente adecuado para el tipo de tareas que desea realizar, presenta reglas basadas en expresiones regulares para seguir enlaces y le permite usar expresiones regulares o expresiones XPath para extraer datos del html. También proporciona lo que llaman "canalizaciones" para volcar datos a lo que quieras.

Scrapy no proporciona una interconexión de MySQL incorporada, pero alguien ha escrito una here, de la cual puede basar la suya.

3

Scrappy es un marco de rastreo y raspado web que puede ampliar para insertar los datos seleccionados en una base de datos.

Es como un inverso al framework Django.

Cuestiones relacionadas