Estaba revisando todas las preguntas existentes pero no pude obtener algo muy relevante.Lucene Fuzzy Buscar los nombres de los clientes y la dirección parcial
Tengo un archivo con millones de registros de nombre de persona, apellido, dirección1, dirección2, código de país, fecha de nacimiento - Me gustaría consultar mi lista de clientes con el archivo anterior a diario (mi lista de clientes también actualizarse diariamente y el archivo también se actualiza diariamente).
Para nombre y apellido Me gustaría la coincidencia difusa (puede ser la distancia de lucene fuzzyquery/levenshtein 90% coincidente) y para los campos restantes país y fecha de nacimiento Quería la coincidencia exacta.
Soy nuevo en Lucene, pero al mirar el número de publicaciones, parece que es posible.
Mis preguntas son:
- Como deberia índice de mi archivo de entrada? Necesito construir un índice sobre la combinación de FN, LN, país, fecha de nacimiento y usar el índice de búsqueda
- ¿Cómo puedo usar la consulta difusa de Lucene aquí?
¿Hay alguna otra manera en que pueda implementar lo mismo?
Gracias Yuval, sí tengo identificador único por persona en el archivo Por lo tanto, debería ser bueno. la lista de clientes es mucho más pequeña que el archivo de persona. Intentaré resolver esto y regresaré. – Rushik