BeautifulSoup - ¿modificando todos los enlaces en una pieza de HTML?

Necesito poder modificar cada uno de los enlaces en un documento HTML. Sé que necesito usar el SoupStrainer pero no estoy 100% seguro de cómo implementarlo. Si alguien pudiera dirigirme a un buen recurso o proporcionar un ejemplo de código, sería muy apreciado.BeautifulSoup - ¿modificando todos los enlaces en una pieza de HTML?

Gracias.

Fuente

2009-01-20 Evan Fosmark

Tal vez algo así podría funcionar? (No tengo un intérprete de Python frente a mí, por desgracia)

from BeautifulSoup import BeautifulSoup 
soup = BeautifulSoup('<p>Blah blah blah <a href="http://google.com">Google</a></p>') 
for a in soup.findAll('a'): 
    a['href'] = a['href'].replace("google", "mysite") 

result = str(soup)

Fuente

2009-01-20 03:02:34 Lusid

Muchas gracias. Hubo algunos problemas, pero creo que es porque no tuvo la oportunidad de probar. Funciona genial. :-) –

from BeautifulSoup import BeautifulSoup 
soup = BeautifulSoup('<p>Blah blah blah <a href="http://google.com">Google</a></p>') 
for a in soup.findAll('a'): 
    a['href'] = a['href'].replace("google", "mysite") 
print str(soup)

Esta es la solución de Lusid, pero ya que él no tenía un intérprete de Python frente a él, no estaba capaz de probarlo y tenía algunos errores. Solo quería publicar las condiciones de trabajo. ¡Gracias Lusid!

Fuente

2009-01-20 03:09:49

Probablemente desee comprobar el caso de edge HTML con crappy donde el elemento a que está probando no tiene un href. –

@Robert, sí, tienes razón. Me aseguraré de hacerlo. Gracias por el aviso. –

@Evan, me alegro de poder ayudarte al menos a llegar allí. My Python es un poco oxidado. :) – Lusid

yo probamos este y funcionó, es más fácil de evitar el uso de expresiones regulares para hacer coincidir cada 'href':

comprobar que funciona, en bs4 docs.

Fuente

2014-03-22 00:03:17

BeautifulSoup - ¿modificando todos los enlaces en una pieza de HTML?

Respuesta

Cuestiones relacionadas