Necesitamos diseñar un sistema que permita a los usuarios buscar por palabras clave diferentes en textos grandes y también, en el futuro, crear informes básicos sobre la frecuencia de esa palabra clave en todos los artículos sobre un período.diseño de base de datos muy grande para buscar texto
Tendremos:
- alrededor de 200.000 artículos añadidos cada día
- cada texto artículo está sobre 2 KB
- artículos se almacenan durante 6 meses
Para hacer eso, se nos ocurrió con la siguiente solución:
- crear un repositorio SOLR para almacenar los artículos
- utilizar una base de datos MySQL para almacenar el artículo de información adicional
el sistema buscará SOLR por palabra clave y luego va a buscar los resultados en MySQL para recuperar información adicional.
Entonces, ¿sería este un buen enfoque?
Si la mayoría de las búsquedas serán solo sobre los artículos agregados en el último mes, ¿sería una buena idea mantener dos bases de datos, una con los artículos agregados en el último mes para la mayoría de las búsquedas y otra con todos los artículos?
Si tiene algún consejo/trucos sobre cómo mejorar esto, sería muy apreciado.
¡Gracias de antemano!
Puede consultar también http://stackoverflow.com/questions/9181566/full-text- searching-and-python/9182118 –