2009-10-26 15 views

Respuesta

3

He encontrado lucene-gosen mientras se hace una búsqueda de mis propios fines:

Su ejemplo se ve bastante decente, pero supongo que es el tipo de cosa que hay numerosas pruebas. También me preocupa su política de compatibilidad con versiones anteriores (o más bien, la falta total de una).

+1

No usamos lucene-gosen, pero usamos gosen. Así que estoy aceptando esta respuesta (ya que está lo suficientemente cerca y el proyecto parece interesante). CJK hace una búsqueda muy ingenua en la que solo coincide con los caracteres y no con las palabras a diferencia de gosen (que usa un diccionario para el análisis adecuado). –

4

Probablemente deberías mirar el paquete CJK que se encuentra en el área de contribución de Lucene. Hay un analizador y un tokenizador específicamente para tratar con chino, japonés y coreano.

+0

El analizador CJK parece ser una forma ingenua de buscar cosas y, por experiencia previa, no parece proporcionar información muy relevante Resultados de la búsqueda. ¿Hay algo que tenga que hacer específicamente para hacer que CJK Analyzer funcione como modificar algunos pesos o algo así? Gracias –

+0

Nunca he usado el analizador CJK, así que no puedo decirlo. Puedes intentar preguntar en la lista de correo de Lucene (http://lucene.apache.org/java/docs/mailinglists.html#Java User List) para obtener ayuda más específica: hay personas que tienen mucha experiencia con Lucene en esa lista. – adrianbanks

Cuestiones relacionadas