¿Cómo puedo obtener enlaces href desde HTML usando Python?

import urllib2 

website = "WEBSITE" 
openwebsite = urllib2.urlopen(website) 
html = getwebsite.read() 

print html

Hasta ahora todo bien.¿Cómo puedo obtener enlaces href desde HTML usando Python?

Pero solo quiero enlaces href del texto sin formato HTML. ¿Como puedó resolver esté problema?

Fuente

2010-06-19 user371012

intento con Beautifulsoup:

from BeautifulSoup import BeautifulSoup 
import urllib2 
import re 

html_page = urllib2.urlopen("http://www.yourwebsite.com") 
soup = BeautifulSoup(html_page) 
for link in soup.findAll('a'): 
    print link.get('href')

En caso de que sólo quieren enlaces empezando con http://, se deben utilizar:

soup.findAll('a', attrs={'href': re.compile("^http://")})

Fuente

2010-06-19 13:04:10 systempuntoout

BeautifulSoup no puede cerrar automáticamente las etiquetas 'meta', por ejemplo.El modelo DOM no es válido y no hay garantía de que encuentre lo que está buscando. – Antonio

otro problema con bsoup es que el formato del enlace cambiará de su original. Entonces, si desea cambiar el enlace original para señalar otro recurso, en este momento todavía no tengo idea de cómo hacerlo con bsoup. ¿Cualquier sugerencia? – swdev

No todos los enlaces contienen 'http'. Por ejemplo, si codifica su sitio para eliminar el protocolo, los enlaces comenzarán con '//'. Esto significa simplemente usar cualquier protocolo con el que el sitio esté cargado (ya sea 'http:' o 'https:'). – reubano

Puede usar el módulo HTMLParser.

El código probablemente se vería algo como esto:

from HTMLParser import HTMLParser 

class MyHTMLParser(HTMLParser): 

    def handle_starttag(self, tag, attrs): 
     # Only parse the 'anchor' tag. 
     if tag == "a": 
      # Check the list of defined attributes. 
      for name, value in attrs: 
       # If href is defined, print it. 
       if name == "href": 
        print name, "=", value 


parser = MyHTMLParser() 
parser.feed(your_html_string)

Nota: El módulo HTMLParser ha sido renombrado a html.parser en Python 3.0. La herramienta 2to3 adaptará automáticamente las importaciones al convertir sus fuentes a 3.0.

Fuente

2010-06-19 13:02:24 Stephen

Me doy cuenta de que, si un enlace contiene el carácter HTML especial como '&', se convierte en su representación textual, como '&' en este caso. ¿Cómo se conserva la cadena original? – swdev

Considero que esta solución es la mejor, ya que no necesita dependencias externas – DomTomCat

buscar en el uso de la hermosa html sopa de análisis sintáctico de la biblioteca.

http://www.crummy.com/software/BeautifulSoup/

Va a hacer algo como esto:

import BeautifulSoup 
soup = BeautifulSoup.BeautifulSoup(html) 
for link in soup.findAll("a"): 
    print link.get("href")

Fuente

2010-06-19 13:07:17

¡Gracias! Pero use 'link' en lugar de' a'. – Evgenii

Mi respuesta probablemente chupa en comparación con los verdaderos gurús por ahí, pero usando un poco de matemática simple, corte en rodajas de cuerdas, encontrar y urllib, esta pequeña script creará una lista que contiene elementos de enlace. Pruebo google y mi resultado parece correcto. ¡Espero eso ayude!

import urllib 
test = urllib.urlopen("http://www.google.com").read() 
sane = 0 
needlestack = [] 
while sane == 0: 
    curpos = test.find("href") 
    if curpos >= 0: 
    testlen = len(test) 
    test = test[curpos:testlen] 
    curpos = test.find('"') 
    testlen = len(test) 
    test = test[curpos+1:testlen] 
    curpos = test.find('"') 
    needle = test[0:curpos] 
    if needle.startswith("http" or "www"): 
     needlestack.append(needle) 
    else: 
    sane = 1 
for item in needlestack: 
    print item

Fuente

2013-02-15 05:05:14 0xhughes

Aquí hay una versión lenta de @ respuesta de Stephen

from urllib.request import urlopen 
from itertools import chain 
from html.parser import HTMLParser 

class LinkParser(HTMLParser): 
    def reset(self): 
     HTMLParser.reset(self) 
     self.links = iter([]) 

    def handle_starttag(self, tag, attrs): 
     if tag == 'a': 
      for name, value in attrs: 
       if name == 'href': 
        self.links = chain(self.links, [value]) 


def gen_links(f, parser): 
    encoding = f.headers.get_content_charset() or 'UTF-8' 

    for line in f: 
     parser.feed(line.decode(encoding)) 
     yield from parser.links

usarlo como así:

>>> parser = LinkParser() 
>>> f = urlopen('http://stackoverflow.com/questions/3075550') 
>>> links = gen_links(f, parser) 
>>> next(links) 
'//stackoverflow.com'

Fuente

2017-01-15 17:13:50 reubano

Usando BS4 para esta tarea específica parece un exceso.

Procurad, más bien:

website = urllib2.urlopen('http://10.123.123.5/foo_images/Repo/') 
html = website.read() 
files = re.findall('href="(.*tgz|.*tar.gz)"', html) 
print sorted(x for x in (files))

Me encontraron esta ingeniosa pieza de código en http://www.pythonforbeginners.com/code/regular-expression-re-findall y funciona para mí bastante bien.

he comprobado sólo en mi escenario de extraer una lista de archivos de una carpeta web que expone los archivos \ carpeta en la que, por ejemplo:

y me dieron una lista ordenada de los archivos \ carpetas bajo la URL

Fuente

2017-09-20 11:09:29 RaamEE

¿Cómo puedo obtener enlaces href desde HTML usando Python?

Respuesta

Cuestiones relacionadas