Estoy tratando de crear un motor de búsqueda solo para aprender y obtener más experiencia en Java.Motor de búsqueda en Java?
Mi intención es almacenar aproximadamente 100 archivos en un servidor, una mezcla de html, xml, doc, txt, y para que cada archivo tenga metadatos.
SO cuando busco una palabra clave, debe mostrar un archivo con su meta descripción como Google.
Mi pregunta es, aparte de html, puede agregar metadatos a cualquier otro formato de archivo, para que se muestre la meta descripción.
¿Podría dirigirme hacia un motor de búsqueda Java, que puede buscar en formatos de archivo (txt, html) y mostrar el resultado.
Estoy trabajando en mi propio código para esto, pero me gustaría echarle un vistazo al código de otras personas para obtener ayuda?
Respuesta
Lucene es el motor de búsqueda canónico de Java.
Para agregar documentos de una variedad de fuentes, consulte Apache Tika y para obtener un sistema completo con las interfaces de servicio/web, solr.
Lucene permite asociar metadatos arbitrarios con sus documentos. Tika eliminará automáticamente los metadatos de una variedad de formatos.
1) Mi pregunta es aparte de html puede agregar metadatos a cualquier otro formato de archivo, para que se muestre la meta descripción.
En general, debe utilizar una base de datos y almacenar los metadatos junto con el documento allí. Luego haría una búsqueda por palabra clave usando una consulta de base de datos (posiblemente usando SQL like o ilike).
Los archivos pueden almacenarse en el disco duro con solo rutas en el DB o colocarse en la base de datos como CLOB o BLOB, dependiendo de si tiene texto o documentos binarios.
2) ¿Sería capaz de apuntar hacia un motor de búsqueda Java, que puede buscar en formatos de archivo (txt, html) y muestra el resultado.
Probar Apache Lucene.
Lo bueno es Lucene. Hay gran cantidad de plugins (que permitiría, por ejemplo, se lee desde .doc), soportar múltiples idiomas y gran cantidad de algoritmos (como la distancia Levenshtein)
Mira apache nutch
Apache Nutch is an open source web-search software project.
Nutch se acumula en la parte superior de Lucene/solr para indexación, tika para analizar documentos y agrega su propio rastreador web.
- Google ignora por completo las descripciones meta hoy en día, debido a que ha sido abusado o bien, o no lleno de valores significativos
- Lucene y/o Solr podría hacer lo que quiere, echar un vistazo.
- 100 archivos es una cantidad muy pequeña, no tendrá ningún problema para administrar esta cantidad de datos de la manera que desee, si es para hacer ejercicio.
Apache Tika para extraer metadata.
Apache Tika Tika El Apache es un conjunto de herramientas ASFv2 licencia de código abierto herramienta para extraer información de los documentos digitales. Tika permite motores de búsqueda, sistemas de gestión de contenido y otras aplicaciones que trabajan con diversos tipos de documentos digitales para detectar fácilmente y extraer metadatos y contenido de todos los formatos de archivo principales.
Tendrá que utilizar varias bibliotecas. En primer lugar, como mucha gente mencionó antes, puede usar Lucene para realizar la búsqueda real. Sin embargo, Lucene solo maneja texto sin formato, por lo que debe extraerlo de los archivos que indexa. Para esto, puede usar Apache Tika.
Para empezar, probablemente debería comprar el libro Lucene in Action 2nd edition. La mayoría de los ejemplos allí todavía están actualizados. Si quieres ser tacaño, también puedes mirar el código fuente provisto en esa página.
- 1. Motor de búsqueda ASP.NET
- 2. Motor de búsqueda para .net
- 3. programador amigable motor de búsqueda?
- 4. Creación de un motor de búsqueda web
- 5. Paquete de motor de búsqueda instalable para búsqueda de archivos
- 6. Motor de búsqueda Lucene vs Base de datos de búsqueda
- 7. motor de búsqueda de Google y paginación
- 8. motor de búsqueda de expresiones regulares
- 9. ¿Cómo diseñar un motor de búsqueda personalizado?
- 10. motor de búsqueda liviano para asp.net
- 11. Motor de búsqueda - Lucene o Solr
- 12. motor de búsqueda Palabras clave Analizador
- 13. motor de búsqueda con 'Quiso decir'
- 14. ¿Cómo agrupar las palabras clave del motor de búsqueda?
- 15. Motor de búsqueda de texto completo para Python
- 16. . Motor de búsqueda de código abierto basado en .Net
- 17. Análisis de consultas de búsqueda en Java
- 18. Motor java 3d gratis
- 19. Cómo construir un motor de búsqueda en C#
- 20. Motor de búsqueda similar a Google en PHP/mySQL
- 21. ¿Cómo indexar su aplicación Silverlight en el motor de búsqueda?
- 22. Python: La agrupación de motor de búsqueda Palabras clave
- 23. búsqueda en java ArrayList
- 24. ¿Cómo resalta un sitio web los términos de búsqueda que utilizó en el motor de búsqueda?
- 25. Búsqueda de rango en Java
- 26. ¿Qué es un buen motor de búsqueda de código fuente?
- 27. Diagrama de flujo del analizador del motor de búsqueda
- 28. ¿Está disponible el motor de búsqueda de ssl para google?
- 29. ¿Cuál es el motor de búsqueda del navegador Sogou?
- 30. Haciendo aplicación GWT rastreable por un motor de búsqueda