¿Qué analizador de lucene se puede utilizar para manejar el texto japonés correctamente? Debería ser capaz de manejar Kanji, Hiragana, Katakana, Romaji y cualquiera de sus combinaciones.¿Qué analizador de Lucas se puede usar para manejar el texto en japonés?
Respuesta
He encontrado lucene-gosen mientras se hace una búsqueda de mis propios fines:
Su ejemplo se ve bastante decente, pero supongo que es el tipo de cosa que hay numerosas pruebas. También me preocupa su política de compatibilidad con versiones anteriores (o más bien, la falta total de una).
Probablemente deberías mirar el paquete CJK que se encuentra en el área de contribución de Lucene. Hay un analizador y un tokenizador específicamente para tratar con chino, japonés y coreano.
El analizador CJK parece ser una forma ingenua de buscar cosas y, por experiencia previa, no parece proporcionar información muy relevante Resultados de la búsqueda. ¿Hay algo que tenga que hacer específicamente para hacer que CJK Analyzer funcione como modificar algunos pesos o algo así? Gracias –
Nunca he usado el analizador CJK, así que no puedo decirlo. Puedes intentar preguntar en la lista de correo de Lucene (http://lucene.apache.org/java/docs/mailinglists.html#Java User List) para obtener ayuda más específica: hay personas que tienen mucha experiencia con Lucene en esa lista. – adrianbanks
- 1. Codificación HTML de texto en japonés
- 2. qué biblioteca c/C++ se puede usar para manejar conexiones wifi para Linux?
- 3. ¿Se puede usar el codemirror en múltiples áreas de texto?
- 4. Fuentes Unicode para japonés
- 5. Captcha para japonés y chino?
- 6. Cómo especificar qué analizador de stax para usar
- 7. ¿Qué idioma debo usar para escribir un analizador de texto y mostrar los resultados de una manera fácil de usar?
- 8. ¿Cómo se puede usar jQuery para manejar el temporizador al hacer clic, cliquear separación
- 9. Algoritmos de ajuste de palabras para japonés
- 10. ¿Se puede usar el formato de cadena en el texto que se muestra con DebuggerDisplay?
- 11. ¿Qué analizador de RSS debería usar en PHP?
- 12. Intentando usar el analizador PET de HPSG
- 13. ¿Qué tipo de analizador se necesita para esta gramática?
- 14. ¿Qué analizador XML para Haskell?
- 15. ¿Qué debo saber para que mi aplicación I18N funcione en japonés?
- 16. ¿Alfabetizar texto árabe y japonés que está en Unicode?
- 17. ¿Por qué no se puede usar this.type para nuevas instancias?
- 18. ¿Qué API se puede usar para leer archivos OAB?
- 19. ¿Qué se prefiere usar en el texto alternativo "&" o "&" para usuarios de lectores de pantallas?
- 20. ¿Se puede usar Delphi para crear y manejar un controlador de protocolo personalizado?
- 21. ¿Qué función se puede usar para ordenar un Vector?
- 22. Lucas Kanade Flujo óptico, Vector de dirección
- 23. ¿Qué método se puede usar para incrementar las letras?
- 24. No se puede manejar DeadlineExceededError durante el uso de UrlFetch
- 25. No se puede usar Deshacer en TextChanged
- 26. No se puede usar EMDK para .NET
- 27. ¿Por qué no se puede usar el objeto COM IDisposable?
- 28. ¿Por qué RSS no puede manejar el ampersand?
- 29. ¿Cómo se puede usar jQuery para medir qué tan lejos se ha desplazado el usuario?
- 30. ¿Qué carácter se puede usar para analizar para párrafos con Java?
No usamos lucene-gosen, pero usamos gosen. Así que estoy aceptando esta respuesta (ya que está lo suficientemente cerca y el proyecto parece interesante). CJK hace una búsqueda muy ingenua en la que solo coincide con los caracteres y no con las palabras a diferencia de gosen (que usa un diccionario para el análisis adecuado). –