Sí, Lucene debe ser capaz de manejar esto, de acuerdo con el siguiente artículo: http://www.lucidimagination.com/content/scaling-lucene-and-solr
he aquí un fragmento:
Dependiendo de una multitud de factores, una sola la máquina puede albergar fácilmente un índice Lucene/Solr de entre 5 y más de 80 millones de documentos, mientras que una solución distribuida puede proporcionar tiempos de respuesta de búsqueda inferiores a los últimos miles de millones de documentos.
El artículo entra en gran profundidad sobre la ampliación a varios servidores. Entonces puede comenzar en pequeño y escalar si es necesario.
Un gran recurso sobre el rendimiento de Lucene es el blog de Mike McCandless, que participa activamente en el desarrollo de Lucene: http://blog.mikemccandless.com/ A menudo se usa contenido de Wikipedia (25 GB) como entrada de prueba para Lucene.
Además, podría ser interesante que la búsqueda en tiempo real de Twitter ahora se implemente con Lucene (ver http://engineering.twitter.com/2010/10/twitters-new-search-architecture.html).
Sin embargo, me pregunto si los números que proporcionó son correctos: 500 millones de documentos x 50 KB = ~ 23 TB - ¿De verdad tiene tantos datos?
Tal vez se mueva directamente a ElasticSearch, que básicamente es una solución de Lucene distribuida – RobAu
Lo que el artículo no aclara es si la aplicación basada en Lucene normal es realmente adecuada para la carga. El autor sigue usando Lucene/Solr. Entonces, en ese caso, como en el caso de Elasticsearch, donde la estructura subyacente es un índice de Lucene, ¿podemos decir que la hipótesis que dice que Lucene es la opción correcta para manejar un índice enorme es cierta? – eliasah
Si es Solr o ES, ambos son índices de Lucene distribuidos. Entonces, en realidad, el nivel más alto de abstracción que ofrecen ambos marcos hace que Lucene se ajuste a un gran índice. – eliasah