2010-05-13 23 views
8

tengo una cadena ASCII, con entidades HTML, como:Cómo convertir de HTML a UTF-8 en java

à 
¨ 
ç 

necesito esta Cadena de estar sin esas entidades y convertirlos en UTF-8 caracteres . ¿Hay alguna manera fácil, en java para hacer eso?

Dónde:

Clazz.method("aà","UTF-8") 

devuelve "AA"

o algo por el estilo?

+0

Quieres decir en lugar de 'à' tienes & agrave; ? Por ejemplo, en lugar de * "c'est-à-dire" * tienes * "c'est- & agrave; -dire" *? (usted sabe que ASCII define solo 128 puntos de código ¿correcto? 'à' es ** no ** un carácter ASCII) – SyntaxT3rr0r

+1

bien, edité su publicación para ver que era un problema de codificación en su pregunta. – SyntaxT3rr0r

+0

La forma en que hace la pregunta es un poco extraña, porque HTML y UTF-8 son dos cosas totalmente diferentes: HTML es un formato de archivo, mientras que UTF-8 es una codificación de caracteres. Los archivos HTML tienen una codificación de caracteres, es decir, puede tener un archivo HTML con codificación UTF-8, codificación ISO-8859-1, etc. – Jesper

Respuesta