¿Cómo trato una cadena ASCII como unicode y desinstalo los caracteres escapados en python?

Por ejemplo, si tengo una cadena Unicode, puedo codificar como una ASCII cadena así:¿Cómo trato una cadena ASCII como unicode y desinstalo los caracteres escapados en python?

>>> u'\u003cfoo/\u003e'.encode('ascii') '<foo/>'

Sin embargo, tengo por ejemplo este ASCII cadena:

'\u003foo\u003e'

... que quiero convertir en el mismo ASCII cadena como en mi primer ejemplo anterior:

'<foo/>'

Fuente

2008-11-06 John

Me tomó un tiempo darme cuenta de esto, pero this page tuvieron la mejor respuesta:

>>> s = '\u003cfoo/\u003e' 
>>> s.decode('unicode-escape') 
u'<foo/>' 
>>> s.decode('unicode-escape').encode('ascii') 
'<foo/>'

También hay un códec 'prima-Unicode-escape' para manejar la otra forma de especificar cadenas Unicode - consulte la sección de "Unicode constructores" de la página de enlace para más detalles (ya que no soy ese Unicode-saavy).

EDITAR: Vea también Python Standard Encodings.

Fuente

2008-11-06 02:26:05 hark

Esto hace exactamente lo que quiero. ¡Gracias un montón! – John

http://www.python.org/doc/2.5.2/lib/standard-encodings.html –

-1

Es un poco peligroso dependiendo de donde la La secuencia viene de, pero ¿qué tal:

>>> s = '\u003cfoo\u003e' 
>>> eval('u"'+s.replace('"', r'\"')+'"').encode('ascii') 
'<foo>'

Fuente

2008-11-06 02:01:12

Desafortunadamente, nuestra entrada proviene de los usuarios, por lo que sería demasiado peligroso para nosotros. – John

En Python 2.5 la codificación correcta es "unicode_escape", no "unicode-escape" (observe el guión bajo).

No estoy seguro de si la versión más reciente de Python cambió el nombre Unicode, pero aquí solo funcionaba con el guión bajo.

De todos modos, esto es todo.

Fuente

2009-11-17 18:14:37 Kaniabi

Ned Batchelder dijo:

Es un poco peligroso dependiendo de donde la cadena está viniendo, pero ¿qué tal:
>>> s = '\u003cfoo\u003e' 
>>> eval('u"'+s.replace('"', r'\"')+'"').encode('ascii') 
'<foo>' 

En realidad este método se pueden hacer segura como ese:

>>> s = '\u003cfoo\u003e' 
>>> s_unescaped = eval('u"""'+s.replace('"', r'\"')+'-"""')[:-1]

Ten en cuenta la cadena de comillas triples y el guión justo antes de las 3 comillas de cierre.

mediante una cadena de 3-citado se asegurará de que si el usuario introduce '\\"' (espacios añadidos para mayor claridad visual) en la cadena no interrumpiría el evaluador;
El guión al final es un failsafe en caso de que la cadena del usuario termine con un '\ "'. Antes de asignar el resultado, cortamos el guión insertado con [: -1]

Así que no habría necesidad de preocuparse por lo que los usuarios ingresen, siempre que se capture en formato sin formato.

Fuente

2012-07-01 12:29:51 MakerDrone

En algún momento que se ejecutará en problemas cuando se encuentra con caracteres especiales como caracteres chinos o emoticones en una cadena que desea decodificar es decir, los errores que se ven así:

UnicodeEncodeError: 'ascii' codec can't encode characters in position 109-123: ordinal not in range(128)

Para mi caso (procesamiento de datos de Twitter), Decodifiqué de la siguiente manera para permitirme ver todos los caracteres sin errores

>>> s = '\u003cfoo\u003e' 
>>> s.decode('unicode-escape').encode('utf-8') 
>>> <foo>

Fuente

2014-03-29 03:06:42 OkezieE

¿Cómo trato una cadena ASCII como unicode y desinstalo los caracteres escapados en python?

Respuesta

Cuestiones relacionadas