2012-03-24 13 views
5

Estoy construyendo un sistema para analizar grandes cantidades de datos financieros con respecto a los precios de negociación de valores. Un gran desafío en esto es determinar qué método de almacenamiento usar para los datos dado que los datos estarán en los 10 de terrabytes. Habrá muchas consultas sobre los datos, como tomar promedios, calcular desviaciones estándar y sumas filtradas por varias columnas, como precio, tiempo, volumen, etc. Las declaraciones de unión no son un requisito, pero sería bueno tenerlas.Almacenamiento de datos para análisis financiero

En este momento, estoy buscando edición de comunidad de infobright, monetdb y edición de comunidad greenplum para fines de evaluación. Hasta ahora, parecen ser geniales, pero para funciones más avanzadas, algunas de ellas son necesarias y no están disponibles en algunas de estas ediciones (usando múltiples servidores, instrucciones de inserción/actualización, etc.).

¿Qué soluciones usaría para esta situación y los beneficios que ofrece sobre las alternativas? Ser rentable es una gran ventaja. Si debo pagar por una solución de almacenamiento de datos, lo haré, pero preferiría evitarla y tomar la ruta de edición de código abierto/comunidad si es posible.

+1

Sumas, promedios, promedios (parciales), stddevs (incluso cuando se filtran) no son minería de datos. Son simplemente ** estatíticos **. –

+1

La minería de datos es el descubrimiento de nueva información de un conjunto de datos. Las estadísticas son una herramienta para ayudar en este proceso. No creo que ese énfasis en la terminología sea propicio, y si discutimos al respecto, no lograremos nada.Es como decir que estoy en desacuerdo con su publicación porque malinterpretó las estadísticas como "estatíticos", es un énfasis innecesario en el tecnicismo. Mi objetivo es usar esta base de datos para descubrir nueva información. Además, las soluciones de data warehousing se construyen teniendo en cuenta la minería de datos. Por lo tanto, el concepto de minería de datos es aplicable aquí. – user396404

+0

Sin embargo, estoy de acuerdo con usted en que la "base de datos" es probablemente una mejor etiqueta para esta publicación. – user396404

Respuesta

1

Infobright ofrece un rendimiento de consulta rápido sin ajustes, sin proyecciones y sin índices en grandes volúmenes de datos. En la carga de datos, he visto instancias en las que se pueden cargar 80 TB de datos por hora, más de 12,000 inserciones por segundo.

¿Cómo funciona?

  1. Columna Orientación vs Fila Orientación
  2. paquetes de datos, además de la media de compresión de 20: 1
  3. Conocimiento Grid - segunda respuesta subdirección en la consulta
  4. granular motor, construido en la cima de la arquitectura MySQL

Aún así, sugeriría que considere estudiar las licencias empresariales, pero ciertamente puede evaluar la edición de la comunidad y probar su rendimiento y las necesidades de carga de datos en su contra.

Descargo de responsabilidad: autor está afiliado con Infobright.

1

Creo que cualquiera de las bases de datos que menciones hará lo que requiera. Si está tratando con 10 puntos de TB de datos para obtener una licencia empresarial para ejecutar en un clúster de MPP, probablemente sería un buen uso de los fondos para mantener el tiempo de procesamiento. Además, si este DW realizará un procesamiento importante para su organización, tener una licencia significa que obtendrá asistencia del proveedor, lo cual es importante para muchas empresas. YMMV.

Una pregunta más importante sería ¿cómo se verán las tasas de ingesta de datos? Para un sistema financiero, creo que una gran parte de la ecuación debe ser la capacidad de seguir cargando datos nuevos en su sistema mientras continúa su procesamiento normal.

Sólo estoy familiarizado con Greenplum de su lista de candidatos, pero sé que lo hace bien en la carga de grandes cantidades de datos en un corto período de tiempo. GP también tiene muchas funciones analíticas y estadísticas incorporadas que puede ejecutar de forma nativa dentro de la base de datos, incluidas las funciones SQL incorporadas, MADLib, R, etc.

Cuestiones relacionadas