necesito extraer los términos con las frecuencias más altas de varios índices lucene, para usarlos en algún análisis semántico.Obtenga los términos de frecuencia más altos del índice Lucene
Por lo tanto, quiero obtener tal vez los 30 términos más frecuentes (todavía no decidí en el umbral, analizaré los resultados) y sus recuentos por índice. Soy consciente de que podría perder un poco de precisión debido a los potenciales duplicados, pero por ahora, digamos que estoy de acuerdo con eso.
Así que para las soluciones propuestas, (no hace falta decir tal vez) la velocidad no es importante, ya que me gustaría hacer el análisis estático, me gustaría poner el acento en simplicidad de aplicación porque no soy tan hábil con Lucene y no puedo envolver mi mente alrededor de algunos conceptos de ello ...
No puedo encontrar ningún ejemplo de código de algo similar, por lo que todos los consejos concretos (código, pseudocódigo, enlaces a ejemplos de código ...) ¡Apreciar todos los consejos!
¡Gracias!
¡Gracias! ¡Exactamente lo que necesitaba! – Julia
Hola mindas! Uso de lucene 4.4 para que no tenga el método de términos()? ¡ayudame por favor! – Thangnv
@Thangnv es posible que desee abrir un hilo separado para esto o enviar un correo electrónico a la lista de correo Java de Lucene. No tengo Lucene 4.4 corriendo a la mano. Y el tiempo ha sido escaso en estos días ;-( – mindas