Un poco de fondo aquí:Consideraciones sobre el almacenamiento de datos: ¿cuándo y por qué?
Sé what a data warehouse is, más o menos. He leído varias docenas de guías sobre almacenamiento de datos, he jugado con SSAS, sé lo que es un esquema de estrella, una tabla de dimensiones y una tabla de hechos, sé lo que es ETL y cómo hacerlo. Esta no es una pregunta de "cómo" o una solicitud de tutoriales.
Mi problema es que todo el material que he leído sobre el almacenamiento de datos parece pasar por alto el razón de ser para construir un depósito de datos. Todos ellos, en sentido figurado, o en algunos casos, literalmente comienzan con la frase "por lo que ha decidido construir un almacén de datos ..." Excepto que aún no tomé esa decisión.
Así que espero que los miembros SO puedan indicarme o ayudarme a llegar a algún tipo de prueba semi-objetiva. Algo que puedo adaptar a un sistema en particular y terminar con "sí, necesitamos un almacén de datos" o "no, la recompensa de hoy sería demasiado pequeña". Creo que las preguntas específicas que deben ser capaces de responder son:
¿En qué momento es la construcción de un almacén de datos de una opción digna de consideración? En otras palabras, ¿qué indicadores reveladores, métricas u otros criterios debería buscar, que podrían indicar que un entorno transaccional estándar ya no es suficiente?
¿Cuáles son las alternativas a un almacén de datos completo? La desnormalización en la base de datos transaccional y el "servidor de informes" duplicado estándar del pantano son dos que vienen a la mente; ¿Hay otros que deba explorar antes de comprometerme con el DW?
¿Por qué es un almacén de datos mejor que dichas alternativas? Si la respuesta es "depende", ¿de qué depende?
Cuando no debería intento construir un almacén de datos? Soy escéptico de cualquier cosa declarada como una "mejor práctica" independientemente del contexto. Seguramente debe haber algunos escenarios en los que un DW es la opción equivocada - ¿qué son?
¿Hay ejemplos prácticos de que podría consultar en los sistemas que se mejoraron mediante la introducción de un almacén de datos? Algo que me explique, de principio a fin, qué tipo de decisiones o análisis necesitaban para el almacén, cómo decidieron qué poner en él, y cómo el almacén terminó encajando en el entorno más amplio. No quiero un artificio "vamos a hacer un cubo de la base de datos de AdventureWorks" - la implementación es irrelevante para mí, estoy interesado en las especificaciones y los diseños y proceso de pensamiento que participaron.
por lo general tratan de no hacer multi-parters pero creo que estos son todos muy estrechamente relacionados. Estoy dispuesto a aceptar cualquier respuesta que aborde al menos las primeras 4 preguntas, aunque la última realmente ayudaría a cristalizar esto en mi mente. Los enlaces están bien si alguien ya ha escrito sobre esto, siempre que sean razonablemente concisos y específicos (enlace a la página de inicio de Ralph Kimball = no útil).
Espero que haya aclarado la pregunta, gracias de antemano por sus respuestas!
muy muy bueno ... me gustaría añadir un enlace a la pregunta 5. Mira MS Project real (http://technet.microsoft.com/en-us/library/cc966416.aspx). Es una implementación práctica (con datos/ETL) de un DWH bastante grande con una gran respuesta de razonamiento/crítica –
, obtengo estas preguntas mucho menos de lo que solía hacerlo, pero esta es una respuesta muy bien pensada. – m1nkeh