Bienvenido todo¿Cómo se lee un InputStream con UTF-8?
Estoy desarrollando una aplicación Java, que llama a un PHP de Internet que me da una respuesta XML.
En la respuesta está contenida esta palabra: "Próximo", pero cuando analizo los nodos del XML y obtengo la respuesta en una variable String, recibo la palabra como esta: "Pr & oacute; ximo" .
Estoy seguro de que el problema es que estoy usando una codificación diferente en la aplicación Java y luego la codificación del script PHP. Entonces, supongo que debo establecer la codificación al igual que en su PHP xml, UTF-8
Este es el código que estoy usando para convertir el archivo XML del PHP.
¿Qué debo cambiar en este código para establecer la codificación en UTF-8? (nota que no im utilizando un lector de bufered, estoy usando flujo de entrada)
InputStream in = null;
String url = "http://www.myurl.com"
try {
URL formattedUrl = new URL(url);
URLConnection connection = formattedUrl.openConnection();
HttpURLConnection httpConnection = (HttpURLConnection) connection;
httpConnection.setAllowUserInteraction(false);
httpConnection.setInstanceFollowRedirects(true);
httpConnection.setRequestMethod("GET");
httpConnection.connect();
if (httpConnection.getResponseCode() == HttpURLConnection.HTTP_OK)
in = httpConnection.getInputStream();
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
DocumentBuilder db = dbf.newDocumentBuilder();
Document doc = db.parse(in);
doc.getDocumentElement().normalize();
NodeList myNodes = doc.getElementsByTagName("myNode");
¿Seguro que es un problema de codificación? ¿Has probado tu contenido PHP con un navegador web? ¡Creo que el XML fuente contiene el personaje escapado! –
ha hecho otra pregunta aquí: http://stackoverflow.com/questions/11494069/problems-parsing-spanish-characters-a-e-i--from-xml-response la respuesta allí desde @kgb es lo que debería estar mirando. esto no es un problema de codificación. parece que el contenido del xml es algunos datos html, y que se escapó la información. necesitas unescapearlo El siguiente enlace le muestra cómo html escapa de algunos caracteres especiales en lenguajes de escritura http://www.thesauruslex.com/typo/eng/enghtml.htm –