estoy tratando de analizar el título de la siguiente página web: http://kid37.blogger.de/stories/1670573/Problema Unicode con un título HTML, ¿signo de interrogación? 65533;
Cuando utilizo el método apache.commons.lang StringEscapeUtils.escapeHTML en el elemento title me sale el siguiente
Das hermetische Caf�: Rock & Wrestling 2010
sin embargo cuando Lo muestro en mi página web con codificación utf-8, solo muestra un signo de interrogación.
Usando el siguiente código:
String title = StringEscapeUtils.escapeHtml(myTitle);
Si corro el título a través de este sitio web: http://tools.devshed.com/?option=com_mechtools&tool=27 Me da la siguiente salida que parece correcta
TÍTULO:
<title>Das hermetische Café: Rock & Wrestling 2010</title>
se convierte (que Esperaba que el método escapeHtml lo hiciera):
<title>Das hermetische Café: Rock & Wrestling 2010</title>
¿Alguna idea? gracias
tiene la razón Ajustó a iso-8859-1 y se procesó correctamente. muy apreciado. – James