Reemplazar entidades html con los correspondientes caracteres UTF-8 en Python 2.6

que tienen un texto html así:Reemplazar entidades html con los correspondientes caracteres UTF-8 en Python 2.6

&lt;xml ... &gt;

y quiero convertirlo en algo legible:

<xml ...>

Cualquier fácil (y rápido) manera de hacerlo en Python?

Fuente

2009-04-08 Alexandru

Creo que la pregunta es un duplicado de esto: http://stackoverflow.com/questions/57708/convert-xml-html-entities-into-unicode-string-in-python –

Posible duplicado de [descodificar entidades HTML en la cadena de Python?] (http://stackoverflow.com/questions/2087370/decode-html-entities-in-python-string) – csl

http://docs.python.org/library/htmlparser.html

>>> import HTMLParser 
>>> pars = HTMLParser.HTMLParser() 
>>> pars.unescape('&copy; &euro;') 
u'\xa9 \u20ac' 
>>> print _ 
© €

Fuente

2009-04-08 14:36:29 vartec

-1 porque: "En desuso desde la versión 2.6" – webjunkie

webjunkie: corrigió el enlace. – vartec

unescape es solo una función interna de HTMLParser (y no está documentado en su enlace). sin embargo, podría usar la implementación. 10x mucho – Alexandru

Hay una función here que lo hace, como vinculados del poste Fred señaló. Copiado aquí para facilitar las cosas.

Crédito a Fred Larson por vincular a la otra pregunta en SO. Crédito a dF por publicar el enlace.

Fuente

2009-04-08 18:09:06 Benson

Reemplazar entidades html con los correspondientes caracteres UTF-8 en Python 2.6

Respuesta

Cuestiones relacionadas