Tengo un archivo, que está en formato XML (consiste solo en las etiquetas raíz de inicio y finalización, y los elementos secundarios de la raíz). Los elementos de texto de los niños contienen el símbolo comercial &. En XML, no está permitido tener este símbolo para que el documento sea válido, y cuando traté de procesar el archivo usando la API DOM en Java y un analizador XML, obtuve errores de análisis. Por lo tanto, he reemplazado & con &
, y procesé el archivo con éxito: tuve que extraer los valores de los elementos de texto en diferentes archivos de texto sin formato.Caracteres especiales en archivos XML - procesamiento con DOM API
Cuando abrí estos archivos de texto recién creados, esperaba ver &
, pero en su lugar había &. ¿Por qué es esto? He almacenado el texto en archivos de texto sin ninguna extensión (mi archivo original con el formato XML tampoco tenía extensión .xml), y tengo solo & en el texto del nuevo archivo, sin importar cómo abro el archivo: como txt o como archivo xml (estas son algunas de las opciones en mi editor XML). ¿Qué pasa exactamente? ¿Java (?) Convierte &
en & automáticamente? O hay alguna codificación predeterminada? Bueno, &
significa &, y supongo que hay alguna conversión automática "invisible", pero estoy confundido cuando y cómo sucede esto. Estos son ejemplos de mi archivo original y el archivo extraído que recibo después de que se procesó el archivo original con Java:
Este es mi archivo "negative.review" en formato XML:
<review>
<review_text>
I will not wear it as it is too big & looks funny on me.
</review_text>
</review>
Este es mi Extraídas archivo "negative_1":
I will not wear it as it is too big & looks funny on me.
para mí es importante contar con los datos originales, ya que es (sin hacer ningún conversiones/reemplazos), así que pensé que tengo que procesar el archivo "negative_1" obtenidas conversión volver &
a &. Como ve, parece que no tengo que hacer esto. Pero no entiendo por qué :(.
gracias de antemano!
Solo una observación: "consiste solo en las etiquetas raíz de inicio y finalización, y los hijos de la raíz". Esa es la definición misma de XML (solo hay un elemento raíz). – PhiLho
http://stackoverflow.com/questions/4341145/how-to-deal-with-special-characters-in-urls-inside-xml – sandeepKumar