Necesito indexar bi-gramos de palabras (tokens) en Lucene. Puedo producir n-grams y luego indexarlos, pero me pregunto si hay algo en Lucene que pueda hacer esto por mí. Descubrí que Lucene solo indexa n-gramas de caracteres. Alguna idea?Bigramas del token de indexación en Lucene
6
A
Respuesta
0
Dependiendo de por qué necesita indexar bi-grams, SpanQuery y/o SnowballAnalyzer pueden ser útiles.
2
1
La clase que se busca es la ShingleFilter: http://lucene.apache.org/java/2_4_0/api/org/apache/lucene/analysis/shingle/ShingleFilter.html
Cuestiones relacionadas
- 1. Lucene indexación en tiempo real?
- 2. Fecha de indexación y búsqueda en Lucene
- 3. Indexación de diferentes tipos de entidades/objetos con Solr Lucene
- 4. Mejore la indexación de subprocesos múltiples con lucene
- 5. indexación y búsqueda capas de anotaciones sobre palabra de nivel en Lucene
- 6. actualización del índice lucene
- 7. Indexación Neo4j (con Lucene): ¿una buena forma de organizar los "tipos" de nodos?
- 8. Optimización del rendimiento de Lucene
- 9. Lista de "tokens" en Lucene 3
- 10. indexación parcial de mysql, indexación inversa
- 11. Cómo indexar campo de fecha en lucene
- 12. Zend Lucene o esfinge?
- 13. Cómo utilizar TermVector Lucene 4.0
- 14. indexación y búsqueda de archivos en Python
- 15. Lucene.net - Bloqueos durante la indexación
- 16. Obtención del token de actualización de OAuth2
- 17. Ant reemplazar token del archivo de propiedades
- 18. Lucene como almacén de datos
- 19. En Lucene, ¿cuál es la diferencia entre ANALYZED y ANALYZED_NO_NORMS?
- 20. Indexación espacial
- 21. ¿Cómo lucene el índice de documentos?
- 22. Uso del resaltador Lucene junto con MultiFieldQueryParser
- 23. Indexación de Postgres?
- 24. Campos booleanos de indexación
- 25. ¿Cómo usar Lucene y JPA?
- 26. Reemplazo del token de Drupal en el archivo de plantilla
- 27. Biblioteca de API de indexación de texto ligera para Android
- 28. Fusionar índice en Lucene
- 29. Nueva indexación enorme base de datos (del Inglés Wikipedia)
- 30. indexación valores nulos en PostgreSQL