2008-10-21 10 views
8

Nuestra empresa tiene miles de documentos PDF. ¿Cómo creamos un motor de búsqueda simple usando Lucene, Solr o Nutch? Proporcionaremos una página web básica de Java/JSP donde las personas pueden escribir en palabras y realizar consultas básicas y/o consultas, y luego mostrarles los enlaces a los documentos de todos los PDF correspondientes.¿Cómo creamos un motor de búsqueda simple usando Lucene, Solr o Nutch?

Respuesta

3

Ninguno de los proyectos en la familia Lucene puede procesar archivos PDF de forma nativa, pero hay utilidades que puede caer en ejemplos y bien escritas sobre cómo liar.

Lucene va a hacer casi todo lo que se necesita hacer, pero hay sobrecarga en términos de su tiempo, como dijo Tony anteriormente. Miles de documentos realmente no es que muchos, por lo que podría ser capaz de salirse con una alternativa de peso ligero.

Dicho esto, todavía me recomiendo mirar Solr - es mucho, mucho más fácil de instalar que Lucene, tiene soporte para copias de seguridad, replicación, etc., así como una ingeniosa interfaz JSON que se ajustaría muy bien a su caso de uso: http://wiki.apache.org/solr/SolJSON

+1

Solr 1.4 analizará archivos PDF y documentos de MS Word. –

0

Si usted tiene un servidor Linux, se puede utilizar para indexar Beagle ellos, y luego sólo tiene que utilizar la funcionalidad de búsqueda que viene con él. Tiene una interfaz de búsqueda web (experimental) y también puede engancharse en el cuadro de búsqueda de Firefox.

Indexa automáticamente los archivos tal como están incluidos, y sospecho que le resultará mucho más eficaz mejorar o reparar el beagle que escribir su propia interfaz de búsqueda en Lucene.

1

En respuesta a una pregunta tan amplia en este foro va a ser difícil. Te recomiendo que revises el libro Lucene in Action, que cubre los aspectos básicos de indexación y búsqueda de una manera bastante legible.

Dada su aplicación, que suena como Nutch y Solr probablemente no será necesario. Dado que todos sus documentos están disponibles localmente, Nutch probablemente no sea útil. Solr puede ayudarlo a administrar un conjunto de buscadores si tiene una alta carga de consultas, pero Lucene tiene un alto rendimiento y maneja grandes conjuntos de documentos de una manera muy escalable.

La única área que podría consumir una gran cantidad de su esfuerzo es el uso de PDF. Es posible indexar documentos PDF, y hay Lucene contributions to facilitate the extraction of raw text from PDFs, pero dependiendo del documento, la calidad de los resultados puede variar. A menudo, el contexto de una palabra clave en un documento PDF no está claro debido a las instrucciones de formato, y eso puede hacer que sea difícil hacer búsquedas de proximidad o mostrar el contexto de un golpe.

2

Tome un vistazo a eprints. Incluye un flujo de trabajo para agregar nuevos documentos, automáticamente indexa y miniaturas de archivos PDF y tiene una funcionalidad bastante completa de búsqueda de texto completo. También se puede personalizar y marcar fácilmente.

Por qué reinventar la rueda. De nuevo.

+0

Nuevamente .... lmmfao .. mod +1 por ser correcto y divertido al mismo tiempo. –

-4

Tener el (en mi humilde opinión) distinta ventaja de estar en un Mac, utilizo SearchLight en un G5 algo mayor. buena interfaz web para destacar, el servicio de indexación incorporado de Mac OS.

3

Google Search Appliance http://www.google.com/enterprise/gsa/

+2

¿Por qué los votos a favor? –

+2

No entiendo los votos hacia abajo tampoco. Una GSA es justo lo que necesitas. No solo indexará todos sus PDF, sino que también indexará toda la intranet y proporcionará resultados de búsqueda mucho mejores que Lucene. – GateKiller

+0

+1 downvotes fueron bastante injustos. Excepto por la implicación de que el OP puede estar buscando una solución "gratuita", GSA es una consideración digna para este tipo de aplicación ... – mjv

8

he tenido buena suerte con Lucene, pero no se haga clic, instalar y búsqueda, sí requiere un poco de trabajo.
Si necesita algo que yo pueda descargar e instalar y estar buscando a los 10 minutos, un vistazo a la libre Ominifind Yahoo Edición http://omnifind.ibm.yahoo.net/, se utiliza Lucene, pero se empaqueta de manera que esté configurado y listo para funcionar después de la instalación, una forma mucho más fácil forma de probar Lucene.

3

Creo que desea un sistema para administrar su archivo PDF. Intenta usar el sistema dspace. Dspace es una biblioteca digital, admite Lucene basado en. www.dspace.org.

+0

Lo siento, tengo un error, http://www.dspace.org/. –

7

El plugin Nutch + Lucene + Pdf habilitado en Nutch es su solución. Nutch le permite analizar pdfs habilitando el plugin pdf.

Lucene le permitirá indexar los datos rastreados y analizados, y Nutch tiene el servicio que le proporciona una interfaz de búsqueda.

Utilizamos el mismo para nuestras líneas internas.

1

Una gran tecnología de búsqueda gratuita que puede ver es la de IBM Yahoo! búsqueda gratuita. No estoy seguro de si siguieron los planes para usar Lucene bajo las sábanas, pero sigue siendo uno de los mejores para usar las tecnologías de búsqueda gratuitas en el este. Maneja hasta 500K documentos, creo, y es compatible con PDF y otros formatos que no sean de texto. Interfaz gráfica de usuario; fácil de personalizar resultados de búsqueda y análisis de búsqueda básicos. Tesauro básico y poderosa API para que pueda hacer prácticamente lo que quiera si los resultados inmediatos no son de su agrado. Hemos sugerido esto a una serie de clientes donde había menos de medio millón de documentos, y les encanta.

Cuestiones relacionadas