2011-08-03 9 views
8

¿Lucene es capaz de indexar documentos de texto de 500M de 50K cada uno?Lucene: ¿es la respuesta correcta para un gran índice?

¿Qué rendimiento se puede esperar de dicho índice, para la búsqueda de un solo término y para la búsqueda de 10 términos?

¿Debo preocuparme y pasar directamente al entorno de índice distribuido?

Saar

Respuesta

7

Sí, Lucene debe ser capaz de manejar esto, de acuerdo con el siguiente artículo: http://www.lucidimagination.com/content/scaling-lucene-and-solr

he aquí un fragmento:

Dependiendo de una multitud de factores, una sola la máquina puede albergar fácilmente un índice Lucene/Solr de entre 5 y más de 80 millones de documentos, mientras que una solución distribuida puede proporcionar tiempos de respuesta de búsqueda inferiores a los últimos miles de millones de documentos.

El artículo entra en gran profundidad sobre la ampliación a varios servidores. Entonces puede comenzar en pequeño y escalar si es necesario.

Un gran recurso sobre el rendimiento de Lucene es el blog de Mike McCandless, que participa activamente en el desarrollo de Lucene: http://blog.mikemccandless.com/ A menudo se usa contenido de Wikipedia (25 GB) como entrada de prueba para Lucene.

Además, podría ser interesante que la búsqueda en tiempo real de Twitter ahora se implemente con Lucene (ver http://engineering.twitter.com/2010/10/twitters-new-search-architecture.html).

Sin embargo, me pregunto si los números que proporcionó son correctos: 500 millones de documentos x 50 KB = ~ 23 TB - ¿De verdad tiene tantos datos?

+0

Tal vez se mueva directamente a ElasticSearch, que básicamente es una solución de Lucene distribuida – RobAu

+0

Lo que el artículo no aclara es si la aplicación basada en Lucene normal es realmente adecuada para la carga. El autor sigue usando Lucene/Solr. Entonces, en ese caso, como en el caso de Elasticsearch, donde la estructura subyacente es un índice de Lucene, ¿podemos decir que la hipótesis que dice que Lucene es la opción correcta para manejar un índice enorme es cierta? – eliasah

+0

Si es Solr o ES, ambos son índices de Lucene distribuidos. Entonces, en realidad, el nivel más alto de abstracción que ofrecen ambos marcos hace que Lucene se ajuste a un gran índice. – eliasah

Cuestiones relacionadas