Esto es lo que hice ..python UnicodeEncodeError> ¿Cómo puedo simplemente eliminar molestos caracteres Unicode?
>>> soup = BeautifulSoup (html)
>>> soup
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\xae' in position 96953: ordinal not in range(128)
>>>
>>> soup.find('div')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\xae' in position 11035: ordinal not in range(128)
>>>
>>> soup.find('span')
<span id="navLogoPrimary" class="navSprite"><span>amazon.com</span></span>
>>>
¿Cómo puedo quitar simplemente los caracteres Unicode preocupantes desde html
?
¿O hay alguna solución más limpia?
no funcionó! Aquí está lo que sucedió ... >>> html.decode ('utf-8', 'strip') Traceback (última llamada más reciente): ..... LookupError: desconocido nombre del manejador de errores 'strip' >>> >>> html.decode ('utf-8') Traceback (llamada más reciente): ..... UnicodeDecodeError: el códec 'utf8' no puede decodificar byte 0xae en posición 98071: byte de código inesperado > >> – Nullpoet
Lo siento mucho, 'ignorar' en lugar de 'pelar'. También recomiendo leer el CÓMO Unicode http://docs.python.org/howto/unicode.html – esv