¿Alguien me puede ayudar a analizar un archivo html para obtener los enlaces de todas las imágenes del archivo en python?Python: obtener todas las imágenes de un archivo html
Preferiblemente con un módulo de 3 ª parte ...
Gracias!
¿Alguien me puede ayudar a analizar un archivo html para obtener los enlaces de todas las imágenes del archivo en python?Python: obtener todas las imágenes de un archivo html
Preferiblemente con un módulo de 3 ª parte ...
Gracias!
Puede usar Beautiful Soup. Sé que dijiste sin un módulo de terceros. Sin embargo, esta es una herramienta ideal para analizar HTML.
import urllib2
from BeautifulSoup import BeautifulSoup
page = BeautifulSoup(urllib2.urlopen("http://www.url.com"))
page.findAll('img')
sólo con PSL
from html.parser import HTMLParser
class MyParse(HTMLParser):
def handle_starttag(self, tag, attrs):
if tag=="img":
print(dict(attrs)["src"])
h=MyParse()
page=open("index.html").read()
h.feed(page)
Puede aumentar esto con urllib para abrir una página web y descargar las imágenes. –
Para mí esto solo funciona con "de HTMLParser import HTMLParser" – nvrandow
Está generalmente aceptado que es más rápido que lxml Hermosa sopa (ref). Su tutorial se puede encontrar aquí: (link) También puede consultar this old stackoverflow post.
OK. Parece que esto lo ayudará mucho, así que lo revisaré. ¡Gracias! – user377419
Creo que Russell se perdió 'BeautifulSoup (página)' –