Lucene es genial. Muy flexible, sorprendentemente rápido y una sólida API. La lista de correo es extremadamente útil.
Los archivos necesitan un poco de mantenimiento, pero se puede hacer con las herramientas provistas. De primordial importancia es optimizar el índice en ocasiones, pero esto solo es necesario si actualiza el índice regularmente.
Sugeriría buscar en Solr también. Es esencialmente una aplicación web y herramientas que se encuentran encima de Lucene. Hace que sea un poco más fácil crear nuevos índices, mantenerlos optimizados, así como proporcionar la sincronización maestro/esclavo para un clúster de búsqueda escalable. Esto, por supuesto, depende de tus necesidades reales.
Para un ejemplo personal, solía mantener un índice de búsqueda para una gran empresa de juegos conocida. El índice tenía cientos de miles de entradas en múltiples idiomas (en todo el mundo) y locales. Realizó un millón de búsquedas diarias en el clúster sin utilizar casi ninguna CPU y una cantidad razonable de memoria. Había probado la carga a alrededor de 300 millones de búsquedas por día, en el hardware que teníamos y escalaba linealmente simplemente agregando más cuadros al clúster. Solr y Lucene fueron las principales herramientas para esto.
Si yo tuviera para dar un aspecto negativo, sería una curva de aprendizaje. Hay un poco de comprensión, y si quiere una solución verdaderamente optimizada, necesita conocerla bien. Sin embargo, esto sucederá con cualquier herramienta de búsqueda que use, si lo hace usted mismo. La documentación, los wikis y la lista de correo brindan mucho apoyo para esta aceleración.
Eso no es un problema específico de lucene, lo mismo es cierto para cualquier sistema de indexación. – bdargan