Evidencia puramente anecdótica, pero utilizamos una versión (personalizada, pero no de forma pertinente) de StandardAnalyzer
para nuestro sistema. Nuestros documentos pueden no solo estar en diferentes idiomas entre sí, sino que los documentos pueden contener fragmentos de diferentes idiomas (por ejemplo, imagine un artículo escrito en japonés con comentarios en inglés), por lo que el rastreo de idioma es difícil.
La mayoría de nuestros documentos están en inglés, pero hay números significativos en chino y japonés, con un número menor en francés, español, portugués y coreano.
Resultado final? Usamos StandardAnalyzer
, y tenemos muy pocas quejas de personas que usan el sistema en idiomas no romanos sobre la forma en que funciona nuestra búsqueda. Por cierto, nuestro sistema es un tanto 'impuesto' a sus usuarios, por lo que no es como si la gente no se estuviera quejando sino moviéndose a otra parte; si no están contentos, generalmente lo sabemos.
Basado en el hecho de que no me invaden las quejas de los usuarios (muy ocasionales, sobre todo sobre chino, pero nada serio y se explican fácilmente) parece ser "lo suficientemente bueno" para muchos casos.
Me gustan sus sugerencias también, más avanzadas, pero podría migrar a esto. Ofrece un excelente equilibrio. – Halirob