Estoy escribiendo una aplicación de formato C# para un sistema de archivo. El sistema tiene una gran base de datos donde algunas tablas tendrían más de 1.5 millones de registros. Lo que necesito es un algoritmo que indexe el contenido de estos registros. Principalmente, los archivos son documentos de Microsoft office, PDF y TXT. alguien puede ayudar? ya sea con ideas, enlaces, libros o códigos, lo agradezco :)Algoritmo de indexación de texto
ejemplo: si busco la palabra "internacional" en una determinada carpeta en la base de datos, obtengo todos los archivos que contienen esa palabra ordenada por un ciertos criterios como relevancia, fecha de modificación ... etc.
¿Por qué no utilizaría las herramientas de indexación de su base de datos para hacer esto en lugar de crear uno usted mismo? –
¿Desea indexar cada palabra en cada documento, o solo un resumen/metadatos sobre el documento? –
@OJ: Quiero indexar el contenido de los archivos y no sus títulos :) – Majd