Estoy analizando RTF 1.5+ archivos generados por Word 2003+ que pueden tener contenido de otros idiomas. Este contenido generalmente se codifica como literales hexadecimales (\ 'xx). Me gustaría convertir estos literales a valores Unicode.Cómo descubrir qué página de códigos usar al convertir literales hexadecimales RTF a Unicode
Conozco la página de códigos de mi documento buscando ansicpg (\ ansi \ ansicpg1252).
Cuando uso la página de códigos ansicpg para decodificar a Unicode, muchos idiomas (como el francés) parecen convertir a los valores de caracteres Unicode que espero.
Sin embargo, cuando veo texto en ruso (como a continuación), la página de códigos decodifica el contenido en jibberish.
\ f277 \ lang1049 \ langfe1033 \ langnp1049 \ insrsid5989826 \ charrsid6817286 \ 'd1 \' f2 \ 'f0 \' e0 \ 'ed \' e8 \ 'f6 \' fb \ 'e1 \' e5 \ 'e7 \ 'ee \' e7 \ 'e2 \' e0 \ 'ed \' e8 \ 'ff. \ 'dd \' f2 \ 'e0 \' f1 \ 'f2 \' f0 \ 'e0 \' ed \ 'e8 \' f6 \ 'e0 \' ed \ 'e5 \' e4 \ 'ee \' eb \ 'e6 \' ed \ 'e0 \' ee \ 'f2 \' ee \ 'e1 \' f0 \ 'e0 \' e6 \ 'e0 \' f2 \ 'fc \' f1 \ 'ff \' e2 \ ' f2 \ 'e0 \' e1 \ 'eb \' e8 \ 'f6 \' e5 \ 'e2 \' f1 \ 'ee \' e4 \ 'e5 \' f0 \ 'e6 \' e0 \ 'ed \' e8 \ 'e8.
que asumen que lang1049, langfe1033, langnp1049 debe proporcionarme pistas para que pueda elegir mediante programación una página diferente (no predeterminada) código de texto que hacen referencia? De ser así, ¿dónde puedo encontrar información que explique cómo asignar un código lang * a una página de códigos? ¿O debería buscar alguna otra orden/directiva RTF para proporcionarme la información que estoy buscando? (¿O debo usar \ f277 como referencia de fuente y ver si tiene una página de códigos asociada?)
Gracias Bobince - ese es exactamente el consejo que necesitaba. Tienes razón, todo el proceso es incómodo, complicado y agravante. – Malcolm