Estoy desarrollando una heurística para la detección automática del lenguaje y me gustaría saber si la letra dada tiene signos diacríticos (como "Ðàäèî Êóëüòóðà" - todas las letras tienen signos diacríticos). Sería mejor si también pudiera obtener el tipo de diacrítico, si es posible.¿Cómo comprobar si el carácter Unicode tiene signos diacríticos en .Net?
He navegado por UnicodeCategory
enumerado, pero no he encontrado nada que me pueda ayudar aquí.
La letra eth (Ð) no tiene ningún signo diacrítico. En Unicode, es un personaje básico; el trazo no se considera como un signo diacrítico. Es posible que desee reformular su objetivo (y posiblemente explicar qué problema específico resolvería, ya que podría haber mejores enfoques). –
Descomponer es lo último que quieres hacer. La combinación de una letra específica con un signo diacrítico específico es un selector fuerte para el idioma. Simplemente construya las tablas de frecuencia por adelantado. Pero hay muchos idiomas que no son diacríticos. Por ejemplo, no podrá distinguir entre inglés, holandés e italiano. Necesitarás un diccionario para que realmente funcione. Almacenar, por ejemplo, las 100 palabras más comunes recorrerán un largo camino. –