2011-08-10 11 views
6

Soy nuevo en Python, así que lamento si esta es una pregunta para novatos.Python 3 web scraping options

Estoy tratando de crear un programa que involucre webscraping y me he dado cuenta de que Python 3 parece tener un número significativamente menor de módulos de web-scraping que la serie de Python 2.x.

Beautiful Soup, mecanize y scrapy, los tres módulos que se me recomendaron, parecen ser incompatibles.

Me pregunto si alguien en este foro tiene una buena opción para el uso de web scraping pitón 3.

Cualquier sugerencia sería muy apreciada.

, gracias, Will

Respuesta

3

lxml.html obras en Python 3, y consigue que el análisis de HTML, por lo menos.

BeautifulSoup 4, que está en proceso, debería ser compatible con Python 3 (he hecho algo de trabajo sobre esto).

+0

El análisis lxml es bueno y maneja HTML no válido casi tan bien como BeautifulSoup. También es más rápido, pero más difícil de instalar. –

+1

Los usuarios de Ubuntu pueden simplemente instalar el paquete 'python3-lxml'. BeautifulSoup 4 usará lxml (u otros analizadores sintácticos), y se enfocará en los métodos para acceder al DOM. Por lo tanto, se beneficiará de la velocidad de lxml. –