2011-06-08 19 views
10

He oído que algunos caracteres no están presentes en el estándar Unicode a pesar de estar escritos en la vida cotidiana por poblaciones de algunas áreas. Especialmente, he oído hablar de nombres chinos recientes fabricados al ensamblar partes de personajes existentes, pero no puedo encontrar ninguna referencia para esto.¿Qué caracteres NO están presentes en Unicode?

Por ejemplo, el personaje de abajo es muy común que los 50 millones de personas, sin embargo, es not in Unicode:

enter image description here

¿Hay una lista de estos personajes? (imágenes o sitio web que enumera dichos caracteres como imágenes)

+2

el carácter críptico e impar que acabo de dibujar en mi cuaderno con un lápiz. ;) –

+0

Esto: http://en.wikipedia.org/wiki/File:Prince_logo.svg Aunque es más un truco publicitario que un personaje real. – Piskvor

+0

Es posible que desee restringir la pregunta para excluir respuestas como la de Nick. – dan04

Respuesta

0

Es natural que Unicode no pueda alcanzar algunos de los nuevos caracteres ideográficos o algunos símbolos poco utilizados.

Pero no puedo entender la razón detrás de la pregunta. Puede dibujar cualquier símbolo aleatorio que desee, lo más probable es que no sea un carácter estándar Unicode.

¿O solo es curiosidad?

+0

Buenos puntos, pero esto debería ser un comentario, ya que no responde la pregunta. – sleske

+0

Simplemente curiosidad :-) En lugar de cualquier símbolo al azar, estaba buscando personajes, que están siendo escritos por personas reales en su vida cotidiana, como los que figuran en el PDF citado por Ólafur Waage. –

2

Here's a little W3C article acerca de qué hacer con los caracteres Unicode faltantes.

Here's a PDF document sobre algunos caracteres que faltan en Unicode 4,1

And here's a little neat unicode navigator.

espero que esto ayude un poco.

+0

Lo sentimos, pero su "necesitar poco navegador Unicode" es completamente incorrecto. En un error típico de MS, ha reemplazado erróneamente los controles C1 con Microsoft CP1252. Por ejemplo, U + 0091 es en realidad Pʀɪᴠᴀᴛᴇ Usᴇ Oɴᴇ, pero lo tienen listado como Lᴇꜰᴛ Sɪɴɢʟᴇ Qᴜᴏᴛᴀᴛɪᴏɴ Mᴀʀᴋ, que en realidad es U + 2018. Creo que encontrarás [uninames] (http://training.perl.com/scripts/uninames), [uniprops] (http://training.perl.com/scripts/uniprops), [unichars] (http://training.perl.com/scripts/unichars), y [todo lo demás] (http://training.perl.com/scripts/) para ser mucho más útil y preciso. – tchrist

+0

@tchrist bien, lo siento por eso entonces. –

+1

Esto es realmente un problema del navegador: el sitio usa '& # x (algún valor hexadecimal);' para obtener el carácter, y '€' -' F; '* debe * representar los códigos de control C1. Pero en los navegadores actuales, por razones de compatibilidad molestas, escribir una referencia de caracteres con un valor en el rango 0x80-0x9F convierte silenciosamente el carácter al que obtendría para esos valores de bytes en CP1252. Entonces si haces 'document.body.innerHTML = '€'' y luego lees 'document.body.innerHTML.charCodeAt (0)', en realidad obtienes 0x20AC, no 0x80. Esto no ocurre en el modo XHTML. – bobince

5

Bueno, hay muchas cosas que no están presentes en Unicode (aunque aún se están agregando nuevos caracteres).

Algunos ejemplos:

  • Debido a Han Unification, Unicode utiliza un punto de código para varios caracteres similares de diferentes idiomas. La gente no está de acuerdo si estos personajes son realmente "lo mismo"; si crees que deberían representarse por separado, entonces podría decirse que estas representaciones separadas "faltaban" (aunque esta es una cuestión filosófica).
  • En un sentido similar, muchas lenguas (especialmente las asiáticas) a veces tienen varias variantes de un carácter/glifo. La distinción entre "un carácter con varias representaciones" (= un punto de código) y "caracteres distintos" (= diferentes puntos de código) es un tanto arbitrario, por lo tanto hay casos (por ejemplo, con caracteres Kanji) donde algunas personas sienten que las variantes alternativas "faltan".
  • Faltan muchos personajes históricos y raramente utilizados.
  • Muchos scripts antiguos e históricos no están cubiertos, p. Linear A
+3

Creo que los selectores de variación ~ 260 están destinados a abordar las dos primeras viñetas. Sus puntos de código son 180B-180D (abreviado FVS1-3), 303E (ɪᴅᴇᴏɢʀᴀᴘʜɪᴄ ᴠᴀʀɪᴀᴛɪᴏɴ sᴇʟᴇᴄᴛᴏʀ, IVS), FE00-FE0F (VS1-VS16) y E0100-E01EF (VS17-VS256). En realidad, IVS es diferente: cuenta como '\ p {Other_Symbol}' y '\ p {Grapheme_Base}', mientras que los otros son '\ p {Nonspacing_Mark}', '\ p {Grapheme_Extend}', '\ p {Default_Ignorable_Code_Point} ', y' \ p {Variation_Selector} '. No sé para qué es realmente IVS. Scriptwise, FVS1-3 son '\ p {Mongolian}', IVS es '\ p {Common}', y VS1-256 son '\ p {Heredado}'. Espero que esto ayude. – tchrist

1

Hay un montón de personajes de la parte símbolo de la norma que era un fastidio que no están incluidos.

Consulte la sección "Versiones simétricas faltantes" de http://xahlee.org/comp/unicode_arrows.html para ver un conjunto de símbolos de flecha que existen, pero solo en ciertas direcciones. Algunos son simplemente tontos. Por ejemplo, hay ⥂, ⥃ y ⥄, pero no hay una versión de punteo a la derecha de la última.

Y puede ver en http://en.wikipedia.org/wiki/Unicode_subscripts_and_superscripts que escogieron aparentemente al azar qué letras apoyar en forma de superguía y sub guión. Por ejemplo, incluyen las vocales del subíndice a, e, o, e incluso schwa (ə), pero no i, que sería muy útil, ya que es un subíndice común en la composición matemática. Eche un vistazo al artículo de Wikipedia para obtener más detalles (necesitará una fuente Unicode instalada, porque al menos en el momento de escribir estas publicaciones, los equivalentes ascii regulares no se incluyen explícitamente), pero básicamente eligieron aproximadamente la mitad del alfabeto latino aparentemente al azar para cada uno de los caracteres de superguía y subguía de mayúsculas y minúsculas.

Además, no existen muchos símbolos que serían convenientes para crear formas con unicode.

Cuestiones relacionadas