Acabo de empezar a aprender a usar la web usando Python. Sin embargo, ya he tenido algunos problemas.Web raspado de datos utilizando Python?
Mi objetivo es chatarra web los nombres de las diferentes especies de atún de fishbase.org (http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=salmon)
El problema: No puedo extraer todos los nombres de las especies.
Esto es lo que tengo hasta ahora:
import urllib2
from bs4 import BeautifulSoup
fish_url = 'http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=Tuna'
page = urllib2.urlopen(fish_url)
soup = BeautifulSoup(html_doc)
spans = soup.find_all(
A partir de aquí, no sé cómo iba a ir sobre la extracción de los nombres de las especies. He pensado en el uso de expresiones regulares (es decir soup.find_all("a", text=re.compile("\d+\s+\d+"))
para capturar los textos dentro de la etiqueta ...
Cualquier entrada será muy apreciada!
hecho 'findAll' ha cambiado de nombre a' find_all' a cumplir con pep8. Más información [aquí] (http://www.crummy.com/software/BeautifulSoup/bs4/doc/#method-names). – jcollado