Estoy tratando de encontrar un recurso que pueda usarse para conectar idiomas (o más probablemente guiones) a bloques de caracteres Unicode. Tal recurso se usaría para buscar preguntas como "¿Qué bloques Unicode se usan en francés?" o "¿Qué idiomas usan el bloque de 0A80-0AFF (http://unicodinator.com/#Block-Gujarati)?" ¿Conoces ese recurso?¿Cómo puedo relacionar bloques Unicode con Idiomas/Scripts?
Hubiera esperado poder encontrar esta información fácilmente en unicode.org. Pude encontrar rápidamente una gran tabla que relaciona los códigos de país con los idiomas (http://unicode.org/repos/cldr-tmp/trunk/diff/supplemental/territory_language_information.html). Pero he pasado bastante tiempo hurgando sin suerte para encontrar algo que relacione bloques Unicode con idiomas. Es posible que tenga un problema de terminología que me impide conectar los puntos aquí ...
No soy exigente sobre qué significa exactamente "lenguaje" (código de configuración regional de Java o código ISO 639 o lo que sea) en este caso . También entiendo que puede que no haya respuestas exactas porque, por ejemplo, un documento árabe puede contener texto en latín y de otro tipo además de caracteres de los bloques árabes (http://unicodinator.com/#Block-Arabic, http://unicodinator.com/#Block-Arabic_Supplement). Pero seguramente debe haber alguna tabla que diga "estos lenguajes van con estos bloques" ... Tampoco soy exigente con el formato (XML, CSV, lo que sea), puedo transformar esto fácilmente en datos que puedo usar para mi aplicación . Y de nuevo, me doy cuenta de que la referencia probablemente conectaría Scripts a Blocks, no a Languages (aunque los Scripts pueden asignarse a Languages).
Me doy cuenta de que esta será una tabla de muchos a muchos (dado que muchos lenguajes usan caracteres de varios bloques, y muchos bloques son utilizados por varios idiomas); Me doy cuenta de que esto no se puede responder con precisión ya que los puntos de código Unicode no son específicos del idioma; sin embargo, la pregunta "¿qué idiomas hay en este país?" (La respuesta es probablemente "la mayoría" para la mayoría de los países), pero una tabla así (http://unicode.org/repos/cldr-tmp/trunk/diff/supplemental/territory_language_information.html) todavía es posible crear, significativo y útil.
En cuanto a por qué me gustaría tal cosa: me gustaría mejorar http://unicodinator.com con calor-mapas globales de los bloques de código, y las listas de idiomas; También tengo un concepto de juego con el que estoy retocando. Más allá de eso, es probable que haya muchos otros usos que otras personas podrían tener para esto (creación de fuentes, heurística, detección de lenguaje rápida y mejor adivinación ahora que Google Translate API se va? ¿Proyectos de investigación?).
¿Qué hay de bloques que pueden pertenecer a varios idiomas? –
sí @Ignacio, definitivamente habrá una relación de muchos a muchos. – jlarson
No creo que esto responda. Considere las palabras prestadas de otros idiomas. El inglés normalmente no tiene acentos, pero encontrará un "resumen" en cualquier diccionario de inglés. –