5

¿Cuál es la forma técnicamente correcta de referirse a caracteres "ascii alto" o "ascii extendido"? No solo me refiero al rango de 128-255, sino a cualquier personaje más allá del alcance de 0-127.¿Cuál es el término técnico apropiado para los caracteres "ascii altos"?

A menudo se llaman diacríticos, letras acentuadas, a veces casualmente denominadas caracteres "nacionales" o no ingleses, pero estos nombres son imprecisos o cubren solo un subconjunto de los caracteres posibles.

¿Qué término correcto y preciso reconocerán los programadores de inmediato? ¿Y cuál sería el mejor término inglés para usar cuando se habla en una audiencia no técnica?

+1

Estaba tratando de ser conciso, pero tal vez debería haber explicado por qué pregunté. Soy un traductor, mi trabajo es la localización de software. A menudo (¡todavía!) Encuentro errores donde solo se difuminan los caracteres "nacionales" y "extendidos" en mi idioma, generalmente porque se aplicó una página de códigos incorrecta en algún momento. Por lo tanto, necesito un término para referirme a esos caracteres específicos, de modo que no siempre tenga que recurrir a una oración descriptiva, si es posible. Mi audiencia son programadores, ingenieros y gerentes, para quienes el inglés no es siempre su lengua materna. –

Respuesta

17

"caracteres no ASCII"

+1

Parece que la definición por negación es lo mejor que podemos hacer.Tan pronto como agreguemos "Unicode", el término no será aplicable en contextos que no sean Unicode, etc. Me gustó la idea de sgm de "trans-ascii", pero una acuñación nueva no lo evitará, especialmente cuando se comunica a través de idiomas . –

-1

caracteres Unicode no ASCII.

+1

Esto es incorrecto. Unicode no tiene nada que ver con ASCII, excepto por ser retrocompatible para los primeros 127 puntos de código. –

+0

Ese es el punto. Todos los caracteres Unicode que no tienen equivalentes ASCII. – Amok

+2

@Dervin: así como los valores superiores a 127 no tienen nada que ver con ASCII. –

0

"ASCII extendido" es el término que haría uso, que significa "más allá de los personajes del original 0-127".

Unicode es un conjunto posible de caracteres ASCII extendidos, y es bastante, bastante grande.

UTF-8 es la forma de representar caracteres Unicode que sean compatibles con versiones anteriores con el ASCII original.

+0

En realidad, "ASCII extendido" incluiría 0-127; ¡mi error! –

+2

Mi pensamiento era "ascii extendido" solo se referiría a 128-255. Cualquier cosa que no se pueda expresar en ese rango ya no es realmente ascii :) –

+2

Note también (desde wikipedia) que el uso del término 'ASCII extendido' ha sido criticado, porque puede confundirse con una extensión del estándar ASCII . – thomasrutter

0

Puede acuñar un término como "trans-ASCII", "supra-ASCII", "ultra-ASCII", etc. En realidad, "meta-ASCII" sería incluso mejor, ya que alude al bit meta.

+0

Me gusta "trans-ascii" y creo que expresa correctamente la idea, pero principalmente estoy buscando un buen término para comunicar el concepto. Usar un término autoinflado no puede hacer eso :) –

2

Los códigos de caracteres ASCII superiores a 127 no están definidos. muchos fabricantes de equipos y software diferentes desarrollaron su propio juego de caracteres para el valor 128-255. Algunos eligieron símbolos de dibujo, uno eligen caracteres de acento, otros eligen otros personajes.

Unicode es un intento de crear un conjunto universal de códigos de caracteres que incluye los caracteres utilizados en la mayoría de los idiomas. Esto incluye no solo los alfabetos occidentales tradicionales, sino también cirílico, árabe, griego e incluso un gran conjunto de caracteres chinos, japoneses y coreanos, así como muchos otros idiomas, tanto modernos como antiguos.

Existen varias implementaciones de Unicode. Uno de los más populares si UTF-8. Una de las principales razones de esa popularidad es que es compatible con ASCII, los códigos de caracteres 0 a 127 son los mismos tanto para ASCII como para UTF-8.

Eso significa que es mejor decir que ASCII es un subconjunto de UTF-8. Los caracteres del código 128 y superior no son ASCII. Pueden ser UTF-8 (u otro Unicode) o pueden ser una implementación personalizada por un proveedor de hardware o software.

+4

Las UTF no son "implementaciones" de Unicode. Son codificaciones de texto Unicode en cadenas de bytes. El texto Unicode se representa como una secuencia de números (* no * 'int's o' long's, * números *), y los UTF son formas de traducir cada número a una secuencia de uno o más bytes. – yfeldblum

+0

Jim, gracias, pero estoy más o menos enterado de lo que son :) Solo buscaba un nombre preciso. –

0

Si dice "Alto ASCII", está por definición en el rango 128-255 decimal. ASCII en sí se define como una representación de caracteres de un byte (en realidad, 7 bits); el uso del bit alto para permitir caracteres no ingleses sucedió más tarde y dio lugar a las páginas de códigos que definían caracteres particulares representados por valores particulares. Cualquier multibyte (> 255 de valor decimal) no es ASCII.

0

Una secuencia de bits que no representa un carácter ASCII no es definitivamente un carácter Unicode.

Dependiendo de la codificación de caracteres que está utilizando, podría ser:

  • un bit no válido secuencia
  • un carácter Unicode
  • un ISO-8859-x carácter
  • un Microsoft 1252 caracteres
  • un carácter en otra codificación de caracteres
  • error, datos binarios, etc.

La única definición que se ajuste a todas estas situaciones es:

  • No es un carácter ASCII

ser altamente pedante, incluso "un carácter no ASCII" ¿no precisamente se ajustan a todas estas situaciones, porque a veces una secuencia de bits fuera de este rango puede ser simplemente una secuencia de bits inválida, y no un personaje en absoluto.

0

palabras tomadas de un recurso en línea (Cool website though) porque me pareció útil y apropiado escribir y responder.

Al principio solo incluía letras mayúsculas y números, pero en 1967 se añadieron las letras minúsculas y algunos caracteres de control, formando lo que se conoce como US-ASCII, es decir, los caracteres 0 a 127. Así que con este conjunto de solo 128 caracteres se publicó en 1967 como estándar, que contiene todo lo que necesita para escribir en inglés.

En 1981, IBM desarrolló una extensión de código ASCII de 8 bits, llamada "página de códigos 437", en esta versión se reemplazaron algunos caracteres de control obsoletos por caracteres gráficos. También se agregaron 128 caracteres, con nuevos símbolos, signos, gráficos y letras latinas, todos los signos de puntuación y los caracteres necesarios para escribir textos en otros idiomas, como el español. De esta manera se agregaron los caracteres ASCII que van desde 128 a 255.

IBM incluye soporte para esta página de códigos en el hardware de su modelo 5150, conocido como "IBM-PC", considerada la primera computadora personal. El sistema operativo de este modelo, el "MS-DOS" también usó este código extendido ASCII.

Cuestiones relacionadas