Filtrar etiquetas HTML y resolver entidades en python

Como las expresiones regulares me asustan, estoy tratando de encontrar una manera de eliminar todas las etiquetas HTML y resolver entidades HTML de una cadena en Python.Filtrar etiquetas HTML y resolver entidades en python

Fuente

2008-09-01 akraut

En realidad el enlace a Inmersión en Python debe ser [esto] (http: // diveintopython.org/html_processing/index.html) –

Utilice lxml que es la mejor biblioteca xml/html para python.

import lxml.html 
t = lxml.html.fromstring("...") 
t.text_content()

Y si lo que desea es desinfectar el aspecto HTML en la module

Fuente

2008-09-01 06:07:01

¿Qué hay de analizar los datos HTML y extraer los datos con la ayuda del analizador?

me gustaría probar algo así como el autor describe en chapter 8.3 in the Dive Into Python book

Fuente

2008-09-01 05:35:08 bernhardrusch

Aunque estoy de acuerdo con Lucas que las expresiones regulares no son todo lo que da miedo, sigo pensando que hay que ir con un analizador de HTML especializada. Esto se debe a que el estándar de HTML es lo suficientemente complicado (especialmente si desea analizar arbitrariamente páginas "HTML" extraídas de Internet) que necesitaría escribir mucho código para manejar los casos de esquina. Parece que python includes one out of the box.

También debe consultar el python bindings for TidyLib que puede limpiar el código HTML roto, lo que hace que la tasa de éxito de cualquier análisis HTML sea mucho mayor.

Fuente

2008-09-01 05:49:04

Es posible que necesite algo más complicado que una expresión regular. páginas web a menudo tienen paréntesis angulares que no son parte de una etiqueta, así:

<div>5 < 7</div>

desprendimiento de las etiquetas con expresiones regulares devolverá la cadena "5" y tratar

< 7</div>

como una sola etiqueta y despojarlo.

Sugiero buscar un código ya escrito que lo haga por usted. Hice una búsqueda y encontré esto: http://zesty.ca/python/scrape.html También puede resolver entidades HTML.

Fuente

2008-09-01 05:50:44

Use BeautifulSoup! Es perfecto para esto, donde tienes un marcado entrante de dudosa virtud y necesitas obtener algo razonable de ello. Solo pase el texto original, extraiga todas las etiquetas de cadena y únase a ellas.

Fuente

2008-09-01 05:53:39

y el código para hacer eso sería: '' .join (BeautifulSoup (value, convertEntities = BeautifulSoup.HTML_ENTITIES) .findAll (text = True)) –

Las expresiones regulares lxml.html.clean no son de miedo, pero escribir sus propias expresiones regulares para despojar a HTML es un camino seguro a la locura (y tampoco funcionará). Siga el camino de la sabiduría y use una de las muchas buenas bibliotecas de análisis de HTML.

El ejemplo de Lucas también se rompe porque "sub" no es un método de una cadena de Python. Tendría que "importar re", luego llamar a re.sub (patrón, repl, cadena). Pero eso no es ni aquí ni allá, ya que la respuesta correcta a su pregunta no implica escribir expresiones regulares.

Fuente

2008-09-01 08:15:28

Al ver la cantidad de sentido que la gente está demostrando en otras respuestas aquí, diría que usar una expresión regular probablemente no sea la mejor idea para su situación. Busque algo probado y trate mi respuesta anterior como una demostración de que las expresiones regulares no necesitan ser que miedo.

Fuente

2008-09-02 00:11:49

si utiliza Django también se podría utilizar http://docs.djangoproject.com/en/dev/ref/templates/builtins/#striptags ;)

Fuente

2011-02-28 15:51:41 code22

Filtrar etiquetas HTML y resolver entidades en python

Respuesta

Cuestiones relacionadas