He desarrollado una aplicación de índice y búsqueda con la biblioteca Lucene. pero esta biblioteca tiene algunas limitaciones en la clasificación personalizada en mi contexto, además de su rendimiento, necesito escalabilidad y acceso a todo tipo de frecuencias de palabras, etc. ¿Existe alguna poderosa biblioteca de texto completo de código abierto disponible? características¿Cuál es el mejor proyecto de fuente abierta de búsqueda de texto completo (se prefiere .NET)?
12
A
Respuesta
5
http://www.sphinxconnector.net/
Clave Sphinx son:
- alta indexación y búsqueda de rendimiento;
- herramientas avanzadas de indexación y consulta (tokenizador de texto flexible y rico en funciones, lenguaje de consulta, varios modos de clasificación diferentes, etc.);
- conjunto de resultados avanzados postprocesamiento (SELECCIONE con expresiones, WHERE, ORDER BY, GROUP BY etc. sobre los resultados de búsqueda de texto);
- probada escalabilidad hasta miles de millones de documentos, terabytes de datos y miles de consultas por segundo;
- fácil integración con fuentes de datos SQL y XML, y las interfaces de búsqueda SphinxAPI, SphinxQL o SphinxSE;
- escalado sencillo con búsquedas distribuidas.
Para ampliar un poco, Sphinx:
- tiene alta velocidad de indexación (hasta 10-15 MB/seg por núcleo en un punto de referencia interno);
- tiene una alta velocidad de búsqueda (hasta 150-250 consultas/seg por núcleo contra 1,000,000 de documentos, 1,2 GB de datos en un punto de referencia interno);
- tiene una gran escalabilidad (los índices de clúster más grandes conocidos superan los 3,000,000,000 de documentos, y el más ocupado tiene un pico de más de 50,000,000 de consultas/día);
- ofrece una buena clasificación de relevancia a través de la combinación del ranking de proximidad de frases y el ranking estadístico (BM25);
- proporciona capacidades de búsqueda distribuida;
- proporciona generación de fragmentos de documento (fragmentos);
- proporciona la búsqueda desde la aplicación con las interfaces SphinxAPI o SphinxQL, y desde MySQL con el motor de almacenamiento SphinxSE enchufable;
- admite booleano, frase, proximidad de palabra y otros tipos de consultas;
- admite múltiples campos de texto completo por documento (hasta 32 por defecto);
- admite múltiples atributos adicionales por documento (es decir.grupos, marcas de tiempo, etc.);
- admite palabras vacías;
- soporta diccionarios de formas morfológicas de palabras;
- admite excepciones de tokenización;
- admite codificaciones de un solo byte y UTF-8;
- soporta stemming (stemmers para inglés, ruso y checo están incorporados, y los stemmers para francés, español, portugués, italiano, rumano, alemán, holandés, sueco, noruego, danés, finlandés, húngaro, están disponibles construyendo tercero biblioteca libstemmer de parte);
- admite MySQL de forma nativa (se admiten todos los tipos de tablas, incluidos MyISAM, InnoDB, NDB, Archivo, etc.);
- admite PostgreSQL de forma nativa;
- admite bases de datos compatibles con ODBC (MS SQL, Oracle, etc.) de forma nativa;
- ... tiene otras 50 funciones que no se encuentran aquí, consulte la API y el manual de configuración.
Cuestiones relacionadas
- 1. ¿Cuál es el mejor servidor de aplicaciones de fuente abierta?
- 2. Campos cifrados y búsqueda de texto completo, ¿cuál es el mejor enfoque?
- 3. RavenDB búsqueda de texto completo
- 4. ¿Microsoft Access tiene búsqueda de texto completo?
- 5. Buscando un proyecto de fuente abierta C#
- 6. Mejor búsqueda de texto completo para google-app-engine
- 7. Ranking de búsqueda de texto completo
- 8. Búsqueda de texto completo: Whoosh Vs SOLR
- 9. Sunspot/Solr Búsqueda de texto completo: ¿cómo excluir ciertos campos de la búsqueda de texto completo?
- 10. ¿Qué es la búsqueda de texto completo? ME GUSTA
- 11. Cassandra búsqueda de texto completo como
- 12. ¿Cuál es la mejor herramienta de monitoreo SNMP de fuente abierta?
- 13. ¿Cuál es la mejor herramienta de automatización de fuente abierta para pruebas web funcionales?
- 14. mongodb estrategia de búsqueda de texto completo
- 15. Búsqueda de texto completo para Rails 3
- 16. ¿Es F # fuente abierta?
- 17. Imprimación de búsqueda de texto completo?
- 18. Búsqueda de texto completo de SQL Server
- 19. Búsqueda de texto completo en SQL Azure
- 20. Búsqueda de texto completo como Google
- 21. búsqueda de texto completo en LINQ
- 22. MySQL búsqueda de texto completo varias palabras
- 23. ¿Búsqueda de texto completo más rápido hoy?
- 24. ¿Cómo se hace la búsqueda de texto completo basada en frases en postgres que aprovecha el índice de texto completo?
- 25. ¿Cuál es la mejor manera de implementar una búsqueda de texto completo para una aplicación ASP.NET MVC?
- 26. Búsqueda de texto completo en CRM 2011
- 27. LinqToSql y búsqueda de texto completo: ¿se puede hacer?
- 28. Django MySQL búsqueda de texto completo
- 29. ¿Oracle es compatible con la búsqueda de texto completo?
- 30. ¿Cuál es la mejor y más activa tecnología de búsqueda de código abierto .Net?
He encontrado que el rendimiento con Lucene.net es increíble, así que es una sorpresa escuchar a alguien decir que tienen problemas con el rendimiento! (Por cierto, Lucene tiene una API bastante buena para la puntuación personalizada, etc.) –
No tengo ningún problema con el rendimiento de lucene, pero la clasificación personalizada es muy difícil. – Ehsan