que tienen un texto html así:Reemplazar entidades html con los correspondientes caracteres UTF-8 en Python 2.6
<xml ... >
y quiero convertirlo en algo legible:
<xml ...>
Cualquier fácil (y rápido) manera de hacerlo en Python?
que tienen un texto html así:Reemplazar entidades html con los correspondientes caracteres UTF-8 en Python 2.6
<xml ... >
y quiero convertirlo en algo legible:
<xml ...>
Cualquier fácil (y rápido) manera de hacerlo en Python?
http://docs.python.org/library/htmlparser.html
>>> import HTMLParser
>>> pars = HTMLParser.HTMLParser()
>>> pars.unescape('© €')
u'\xa9 \u20ac'
>>> print _
© €
Hay una función here que lo hace, como vinculados del poste Fred señaló. Copiado aquí para facilitar las cosas.
Crédito a Fred Larson por vincular a la otra pregunta en SO. Crédito a dF por publicar el enlace.
Creo que la pregunta es un duplicado de esto: http://stackoverflow.com/questions/57708/convert-xml-html-entities-into-unicode-string-in-python –
Posible duplicado de [descodificar entidades HTML en la cadena de Python?] (http://stackoverflow.com/questions/2087370/decode-html-entities-in-python-string) – csl