Python: obtener todas las imágenes de un archivo html

¿Alguien me puede ayudar a analizar un archivo html para obtener los enlaces de todas las imágenes del archivo en python?Python: obtener todas las imágenes de un archivo html

Preferiblemente con un módulo de 3 ª parte ...

Gracias!

Fuente

2010-11-28 user377419

Puede usar Beautiful Soup. Sé que dijiste sin un módulo de terceros. Sin embargo, esta es una herramienta ideal para analizar HTML.

import urllib2 
from BeautifulSoup import BeautifulSoup 
page = BeautifulSoup(urllib2.urlopen("http://www.url.com")) 
page.findAll('img')

Fuente

2010-11-28 03:21:41

OK. Parece que esto lo ayudará mucho, así que lo revisaré. ¡Gracias! – user377419

Creo que Russell se perdió 'BeautifulSoup (página)' –

sólo con PSL

from html.parser import HTMLParser 
class MyParse(HTMLParser): 
    def handle_starttag(self, tag, attrs): 
     if tag=="img": 
      print(dict(attrs)["src"]) 

h=MyParse() 
page=open("index.html").read() 
h.feed(page)

Fuente

2010-11-28 03:38:21 Kabie

Puede aumentar esto con urllib para abrir una página web y descargar las imágenes. –

Para mí esto solo funciona con "de HTMLParser import HTMLParser" – nvrandow

Está generalmente aceptado que es más rápido que lxml Hermosa sopa (ref). Su tutorial se puede encontrar aquí: (link) También puede consultar this old stackoverflow post.

Fuente

2010-11-28 04:34:42

Python: obtener todas las imágenes de un archivo html

Respuesta

Cuestiones relacionadas