Estoy construyendo un sistema para analizar grandes cantidades de datos financieros con respecto a los precios de negociación de valores. Un gran desafío en esto es determinar qué método de almacenamiento usar para los datos dado que los datos estarán en los 10 de terrabytes. Habrá muchas consultas sobre los datos, como tomar promedios, calcular desviaciones estándar y sumas filtradas por varias columnas, como precio, tiempo, volumen, etc. Las declaraciones de unión no son un requisito, pero sería bueno tenerlas.Almacenamiento de datos para análisis financiero
En este momento, estoy buscando edición de comunidad de infobright, monetdb y edición de comunidad greenplum para fines de evaluación. Hasta ahora, parecen ser geniales, pero para funciones más avanzadas, algunas de ellas son necesarias y no están disponibles en algunas de estas ediciones (usando múltiples servidores, instrucciones de inserción/actualización, etc.).
¿Qué soluciones usaría para esta situación y los beneficios que ofrece sobre las alternativas? Ser rentable es una gran ventaja. Si debo pagar por una solución de almacenamiento de datos, lo haré, pero preferiría evitarla y tomar la ruta de edición de código abierto/comunidad si es posible.
Sumas, promedios, promedios (parciales), stddevs (incluso cuando se filtran) no son minería de datos. Son simplemente ** estatíticos **. –
La minería de datos es el descubrimiento de nueva información de un conjunto de datos. Las estadísticas son una herramienta para ayudar en este proceso. No creo que ese énfasis en la terminología sea propicio, y si discutimos al respecto, no lograremos nada.Es como decir que estoy en desacuerdo con su publicación porque malinterpretó las estadísticas como "estatíticos", es un énfasis innecesario en el tecnicismo. Mi objetivo es usar esta base de datos para descubrir nueva información. Además, las soluciones de data warehousing se construyen teniendo en cuenta la minería de datos. Por lo tanto, el concepto de minería de datos es aplicable aquí. – user396404
Sin embargo, estoy de acuerdo con usted en que la "base de datos" es probablemente una mejor etiqueta para esta publicación. – user396404