2012-09-28 21 views
5

Tengo problemas para visualizar contenido, mi programa:Cambio y # 39 en carácter normal

#! /usr/bin/python 

import urllib 
import re 

url = "http://yahoo.com" 
pattern = '''<span class="medium item-label".*?>(.*)</span>''' 

website = urllib.urlopen(url) 
pageContent = website.read() 
result = re.findall(pattern, pageContent) 

for record in result: 
    print record 

de salida:

Masked teen killed by dad 
First look in &#39;Hotel of Doom&#39; 
Ex-NFL QB&#39;s sad condition 
Reporter ignores warning 
Romney&#39;s low bar for debates 

Entonces la pregunta es ¿qué debo incluir en mi código en para transformar & # 39 en caracteres

+0

tal vez duplicada con http://stackoverflow.com/questions/57708/convert-xml-html-entities-into-unicode- string-in-python – charlee

Respuesta

8

En python2:

In [16]: text = 'Ex-NFL QB&#39;s sad condition' 

In [17]: import HTMLParser 

In [18]: parser = HTMLParser.HTMLParser() 

In [19]: parser.unescape(text) 
Out[19]: u"Ex-NFL QB's sad condition" 

En python3:

import html.parser as htmlparser 
parser = htmlparser.HTMLParser() 
parser.unescape(text) 
+0

¡Funciona bien! muchas gracias – Vor

0

en Javascript:

text = text.replace(/&#39;/g,"'"); 
Cuestiones relacionadas