Lanzando más luz para las personas que nos visitan desde ahora, con suerte sería útil.
juego de caracteres
Hay personajes en cada idioma y la recogida de esos personajes forman el “conjunto de caracteres” de ese idioma. Cuando un personaje está codificado, le asigna un identificador único o número llamado punto de código. En la computadora, estos puntos de código estarán representados por uno o más bytes.
ejemplos de conjunto de caracteres: ASCII (cubre todos los caracteres en inglés), ISO/IEC 646, Unicode (cubre los caracteres de todos los idiomas que viven en el mundo)
conjunto de caracteres codificados
Una de caracteres codificados set es un conjunto en el que se asigna un número único a cada personaje. Ese número único se llama como "punto de código".
Los conjuntos de caracteres codificados a veces se denominan páginas de códigos.
Codificación
La codificación es el mecanismo para asignar los puntos de código con algunos bytes de manera que un personaje puede ser leído y escrito de manera uniforme en los diferentes sistemas utilizando el mismo esquema de codificación.
Ejemplos de codificación: ASCII, esquemas de codificación Unicode como UTF-8, UTF-16, UTF-32.
Elaboración de 3 conceptos anteriores
- Considere esto - Carácter 'क' en Devanāgarī conjunto de caracteres tiene un decimal punto de código de 2325 que será representado por dos bytes (09 15) al utilizar la codificación UTF-16
- en “ISO-8859-1” “ü” esquema de codificación (esto no es más que un personaje de juego de caracteres latinos) se representa como valor hexa-decimal de “FC”, mientras que en “UTF -8 "representaba como" C3 BC "y en UTF-16 como" FE F F 00 FC ".
- Diferentes esquemas de codificación pueden usar el mismo punto de código para representar diferentes caracteres, por ejemplo en "ISO-8859-1" (también llamado como Latin1) el valor del punto de código decimal para la letra "é" es 233. Sin embargo, en ISO 8859-5, el mismo punto de código representa el carácter cirílico 'щ'.
- Por otro lado, un único punto de código en el conjunto de caracteres Unicode se puede asignar a diferentes secuencias de bytes, dependiendo de qué codificación se utilizó para el documento. El carácter Devanagari क, con código de punto 2325 (que es 915 en notación hexadecimal), estará representado por dos bytes cuando se utiliza la codificación UTF-16 (09 15), tres bytes con UTF-8 (E0 A4 95) o cuatro bytes con UTF-32 (00 00 09 15)
Ver esta publicación: http://stackoverflow.com/questions/13743250/meaning-of-xml-version-1-0-encoding-utf-8?lq=1 – rghome