¿Cuál es la codificación predeterminada para las cadenas C?

Sé que las cadenas C son char [] con un '\ 0' en el último elemento. ¿Pero cómo están codificados los caracteres?¿Cuál es la codificación predeterminada para las cadenas C?

Actualización: He encontrado este enlace interesante que habla de muchos otros lenguajes de programación y sus convenciones de codificación: Link

Fuente

2010-10-22 Plumenator

Todo lo que dice la norma al respecto es que obtiene al menos los 52 caracteres en mayúscula y minúscula del alfabeto latino, los dígitos del 0 al 9, los símbolos ! " # % & ' () * + , - ./: ; <=> ? [ \ ]^_ { | } ~ y el carácter de espacio, y los caracteres de control que representan la pestaña horizontal , pestaña vertical y alimentación de formulario.

Lo único que dice acerca de la codificación numérica es que todo lo anterior se ajusta en un byte, y que el valor de cada dígito después de cero es uno mayor que el valor del anterior.

La codificación real es probablemente heredada de los valores de localización. Probablemente algo compatible con ASCII.

Fuente

2010-10-22 10:55:40

Supongo que la configuración regional también se puede configurar en el compilador. Acabo de enterarme de la opción gcc -finput-charset (http://gcc.gnu.org/onlinedocs/cpp/Invocation.html). El valor predeterminado parece ser UTF8. No es de extrañar que haya podido imprimir UTF8Strings. – Plumenator

¿El estándar también dice algo acerca de los valores ordinales de los alfabetos? – Plumenator

@Plumenator: No. Ni siquiera hay un requisito que ''A' <'B''. –

La norma no especifica esto. Típicamente con ASCII.

Fuente

2010-10-22 10:47:37

En Objective-C que soy capaz de crear cadenas de C utilizando diciendo: char * cStr = [objcStr UTF8String], y la impresión que printf ("% s", cStr). ¿Funciona porque ASCII es un subconjunto de UTF8? – Plumenator

Sí, ASCII es un subconjunto de UTF8. – fresskoma

@Plumenator que funciona porque UTF-8 fue diseñado ser lo más transparente posible para el manejo de código ya ASCII, y debido a su terminal de salida admite @nos UTF-8 – nos

Realmente no están "codificados" como tal, simplemente se almacenan tal cual. La cadena "Hola" representa una matriz con el carbón de leña valora 'h', 'e', 'l', 'l', 'o' y '\0', en ese orden. El estándar C tiene un conjunto de caracteres básicos que incluye estos caracteres, pero no especifica una codificación en bytes. Podría ser EBCDIC, por lo que sabes.

Fuente

2010-10-22 10:47:52

Nota: '\ 0' es literalmente el número octal 0 con un tipo de char. Así que sí, el personaje que termina siempre es literalmente un 0. –

@Martin: gracias por señalar eso. Siempre me olvido de si las extrañas reglas que rodean a los punteros nulos también se aplican a los caracteres nulos. –

@Martin: Técnicamente, el tipo de un carácter literal es 'int' (al menos está en C) ... –

Una cadena de caracteres es prácticamente una secuencia de bytes. Eso significa que no tiene una codificación bien definida, podría ser ASCII, UTF8 o cualquier otra cosa, para el caso. Debido a que la mayoría de los sistemas operativos entienden ASCII por defecto, y el código fuente está escrito principalmente con codificación ASCII, los datos que encontrará en un simple (char *) a menudo también serán ASCII. No obstante, no hay garantía de que lo que obtenga de un (char *) sea UTF8 o incluso KOI8.

Fuente

2010-10-22 10:56:38 fresskoma

En realidad, el sistema operativo más moderno usa una cadena de caracteres anchos en todas las interfaces internas (Win/Linux/Mac). Entonces no es ASCII lo que usan. –

No he dicho que utilicen ASCII por defecto en sus interfaces, pero que entiendan ASCII :) – fresskoma

"realmente no tiene ninguna codificación" El texto almacenado digitalmente siempre tiene alguna codificación. – Praxeolitic

Como ya se ha indicado otra, C tiene algunas restricciones lo que está permitido para la fuente y el carácter de ejecución codificaciones, pero es relativamente permisiva. Entonces, en particular, no es necesariamente ASCII, y en la mayoría de los casos hoy en día al menos una extensión de eso.

su entorno de ejecución se pretende hacer una traducción eventual entre la fuente y el conjunto de caracteres ejecución. Por lo general, no debería preocuparse por la codificación y, por el contrario, intentar codificar independientemente de ella. Esto explica por qué hay secuencias de escape especiales para caracteres especiales como '\n' o '\t' y codificaciones de caracteres universales como '\u0386'. Por lo general, no debería tener que buscar las codificaciones para el juego de caracteres de ejecución usted mismo.

Fuente

2010-10-22 11:39:09

¿Cuál es la codificación predeterminada para las cadenas C?

Respuesta

Cuestiones relacionadas