6

Disculpe si esto ya se ha solicitado (sé muy poco sobre Data Warehouse/BI y aún tengo que dominar las palabras clave).Agregación de datos: secuencia de comandos SQL diaria frente a almacén de datos

Tengo una tabla que crece más de 100 000 filas por día, cada fila tiene una marca de tiempo y información múltiple sobre un elemento (dimensiones, peso, color, etc.). Los datos individuales pueden ser útiles aproximadamente un mes después de este período, solo estamos interesados ​​en agregaciones. Tengo un software dedicado que permite una visualización más detallada de las filas individuales y principalmente el uso de PowerPivot para mis necesidades de informes.

Pude encontrar una consulta SQL que llenaría una nueva tabla diariamente: en la que tendría una fila por cada hora/artículo/lote y resumiría la información (sum/average/stddev/etc.)

Dentro de un día mi script estaría en funcionamiento y podría usar powerpivot contra esta nueva tabla. Todo esto mientras me quedo donde estoy cómodo: viejo SQL simple.

A partir de la poca información que reuní leyendo sobre DataWarehouse y BI, lo que estoy a punto de hacer se parece mucho a la creación de dimensiones y hechos. Mi pregunta por lo tanto: si vale la pena seguir investigando en esa dirección (BI) o si mi problema es relativamente simple, sería mejor que me quede en una base de datos relacional.

N.B. Los informes que se están produciendo generalmente están vinculados con otra base de datos para producir información más significativa. Tarea que Powerpivot lleva a cabo muy bien.

Respuesta

3

Las datawarehouses se implementan normalmente en bases de datos relacionales, por lo que sus habilidades existentes seguirán siendo utilizables.

Teniendo en cuenta que usted ha expresado su interés en el enfoque de tabla de dimensión/hecho a Datawarehousing, los libros canónicos en este enfoque se consideran generalmente ser:

  • El kit de herramientas Fecha de almacén (Kimball, Ross)
  • el kit de herramientas de
  • Fecha Almacén ciclo de Vida (Kimball, Ross, Thornthwaite, Mundy, Becker)

(el primero tiene más de un enfoque técnico, mientras que el segundo aborda el tema desde un punto de vista más amplio de gestión de ciclo de vida.)

La implementación de DWH puede llevar mucho tiempo, por lo que puede valer la pena continuar con su enfoque existente incluso si decide construir un DWH.

+0

Si pudiera aceptar todas las respuestas, lo haría, ya que todas mencionaron diferentes aspectos que me ayudaron a tomar la decisión (dejemos que sea sencillo por ahora). Pero como este me indicó algo más de lectura, continuaré y aceptaré este. Gracias – Benoittr

1

Las soluciones más efectivas son aquellas que son simples, adecuadas para satisfacer las necesidades existentes y se mantienen dentro de los conjuntos de habilidades disponibles.

Estoy de acuerdo en que este enfoque funciona bien para su situación y si proporciona los informes y la información que necesita, entonces vale la pena comenzar de esta manera. Si necesita una funcionalidad más compleja más adelante, puede optar por una BI más compleja.

2

Buenas noticias: parece que ya tiene un almacén de datos. "Almacén de datos" es un término muy genérico, sin una definición formal real, significa más o menos lo que quieras.

características comúnmente aceptadas son: almacenes

  • de datos no se ejecutan en las bases de datos operacionales
  • almacenes de datos esquemas están optimizados para la consulta, no para el cumplimiento "forma normal"
  • Los almacenes de datos están pobladas por Procesos "extraer, transformar, cargar" (ETL).

Parece que ya está haciendo todo eso. Si no hay requisitos comerciales para cambiar, lo dejaría como está. Si los usuarios de su empresa solicitan crear sus propias consultas, utilizando diferentes niveles de agregación, filtrado o granularit, un esquema en estrella puede ser el camino a seguir.

Cuestiones relacionadas