He estado estudiando soundex, metaphony y otras técnicas de búsqueda de cuerdas los últimos días, y en mi comprensión ambos algoritmos funcionan bien en el manejo de palabras no inglesas transliteradas al inglés.Habilitando soundex/metaphone para caracteres no ingleses
Sin embargo, el requisito que tengo es que dicha búsqueda funcione en los idiomas originales, sin traducir, que incluyan alfabetos como el alemán, el noruego e incluso el alfabeto cirílico.
¿Hay algún algoritmo de búsqueda capaz de manejar estos alfabetos por completo? ¿O es mejor utilizar bibliotecas de búsqueda de texto completo de terceros como Lucene? En consecuencia, la pregunta entonces se convierte en '¿Lucene maneja alfabetos no ingleses?'
Si su caso de uso es solo una búsqueda textual en idiomas distintos del inglés, es posible que no necesite soundex. Necesitas a Lucene con un Analizador adecuado, como lo dijo ire_and_curses. Si desea manejar diferentes variantes de escritura de la misma palabra, necesitará un algoritmo de coincidencia fonética. ¿Puedes decir más sobre tu caso de uso? –