2012-02-01 15 views
12

Sé que lucene crea un índice y almacena todos los datos. ¿Puede alguien decirme cómo se almacenan los datos en un archivo plano? o qué tipo de algoritmo utilizan para almacenar los datos en el back-end para que puedan recuperarlo rápidamente?Cómo se almacenan los datos en lucene

Respuesta

4

Usted puede leer este libro http://nlp.stanford.edu/IR-book/ saber acerca de las estructuras de datos, algoritmos y modelos utilizados en los sistemas de recuperación de información

+1

Es un buen libro de nivel de entrada, pero es un poco no relevante para este problema, sigue siendo una buena referencia. – linjunhalida

+1

También hay otro gran libro de recuperación de información que ofrece contenido gratis ahora: https://ciir.cs.umass.edu/irbook/ – realjin

8

No sé si esto es lo que solicitó. Pero la respuesta más general es que usan/implementan un Inverted Index. Los detalles de cómo lo almacena Lucene se pueden encontrar en file formats (como dijo milan).

Pero la idea general es que almacenan una estructura de datos de Índice Invertido y otras estructuras de datos auxiliares para ayudar a responder las consultas rápidamente. Por ejemplo, almacena un vector de normas para cada documento y el IDF de cada término (inverse document frequency). Lucene también almacena los campos de documentos reales, pero eso está fuera del índice invertido.

Cuestiones relacionadas