2009-01-06 8 views
10

Ayer estuve hablando con un compañero de trabajo sobre una situación en la que usó SSIS (o algo así) para hacer algo realmente genial con un paquete de SSIS donde aprobó en un nombre como "Dr. Reginald Williams, PhD". y en base a un esquema de ponderación, el sistema fue lo suficientemente inteligente como para descubrir cómo convertirlo en token y almacenarlo en la base de datos como "Saludo - Nombre - Apellido - Sufijo". Tiró algunas palabras de moda como BI, y SSIS, ETL y Data mining. Realmente quería más información, pero ni siquiera sabía por dónde empezar a preguntar.¿Puede alguien explicar explotaciones de datos, SSIS, BI, ETL y otras tecnologías relacionadas?

Soy un desarrollador de .Net y conocedor de C#, Vb.Net, WPF, etc., pero no tengo idea de qué son estas tecnologías, cómo agregarlas a mi conjunto de habilidades y si no es algo en lo que realmente debería centrarme. Cualquiera y todas las direcciones serían útiles.

Respuesta

21

SSIS == SQL Server Integration Services y es un La herramienta Extraer Transformar y Cargar (ETL), es una implementación muy superior de lo que era Data Transformation Services o DTS en SQL7, era SQL2K. Es una gran herramienta para expresar procesos de flujo de trabajo en donde los datos se mueven del punto A al punto B (yc y d, etc.) y se someten a cambios a través de ese proceso, como la consolidación a un diseño desnormalizado o limpieza de datos.

BI o Business Intelligence es un apodo para toda una categoría en el mundo de la tecnología y es un gran lugar para estar ahora mismo. Las habilidades de BI son muy valiosas y difíciles de obtener, una de las razones por las que este es el caso es que es difícil recrear un verdadero caso de BI en un laboratorio, por lo que la enseñanza casi siempre se hace en una situación del mundo real.

Desde un nivel alto, los proyectos de BI generalmente implican un punto final de generación de informes. Muchas veces, como desarrolladores, estamos acostumbrados a escribir informes transaccionales, como los detalles de un PO, pero BI puede acceder a informes muy amplios que cubren las tendencias de ventas de productos durante décadas y manejan cientos de millones de registros. La forma en que diseñamos bases de datos para aplicaciones no es ideal para este tipo de informes, por lo que se inventaron otras herramientas y tecnologías que se utilizan en el espacio de BI. Estas son cosas como cubos que a menudo oyes llamados cubos OLAP. Los cubos OLAP generalmente se originan en un depósito de datos que no es más que otra base de datos, pero los almacenes típicos contienen datos que provienen de más de uno, y a menudo de docenas de otras bases de datos de aplicaciones. Su aplicación de inventario, aplicación de compras, aplicación de recursos humanos y un montón de otras contienen bits de datos que crean una imagen completa del negocio. Un arquitecto de BI utilizará algo así como SSIS para extraer los datos de todos estos sistemas, darle masajes. y almacenarlo en el almacén de datos que está diseñado con un tipo diferente de diseño mejor para la presentación de informes. Una vez que esté en el almacén, utilizará los servicios de análisis para crear cubos sobre esos datos y algo así como Reporting Services para mostrarle informes sobre esos datos.

Edit: lo siento, se olvidó de Data Mining, es otro término no específico que describe y concepto o un proceso y no tanto una herramienta. En un ejemplo simple, es un enfoque metódico para identificar patrones en los datos.En el pasado, un buen análisis comercial buscaba tendencias pero con las bases de datos modernas se trata de conjuntos de datos demasiado grandes como para peinarlos manualmente: la minería de datos le permite instruir a la computadora para analizar esos datos e identificar patrones que le interesan. .

Espero que ayude

2

SSIS es SQL Server Integration Services y es útil para hacer el ETL (Extraer, Transformar y Cargar) que son la parte frontal de muchas soluciones de almacenamiento de datos/business intelligence que integran datos en modelos dimensionales fáciles de usar. SSIS también es útil para proyectos más pequeños como una forma conveniente de cargar datos heredados o datos de otros repositorios o archivos.

Data mining generalmente implica el uso de los datos de las fuentes integradas para inferir información que no sería obvio a partir de los datos transaccionales (a través de la integración de múltiples fuentes que dan más "dimensiones" de los datos.

BI es un tema enorme por lo que puede no ser algo en lo que enfocarse a menos que desee entrar en ese campo, pero SSIS puede ser útil en proyectos más pequeños y vale la pena aprenderlo en cualquier caso.

3

Lo que su compañero de trabajo no podría ser mejor descrito como "análisis inteligente" de una cadena. Eso podría hacerse en muchos niveles de sofisticación, por ejemplo, usando modelos estadísticos para darle la posibilidad de que "Dr." es un saludo y no un nombre. O simplemente podría usar una lista de búsqueda simple de saludos comunes, en cuyo caso se trata de un código de procedimiento regular, nada más.

SSIS es la abreviatura de SQL Server Integration Services. Básicamente es DTS con esteroides; algunas personas lo aman, y algunas personas lo odian. Sería complicado usar eso solo para hacer el tipo de cosas de las que estás hablando; es principalmente solo para tomar datos de varias fuentes y combinarlos, transformarlos y cargarlos en otro lugar. Puede hacer algunas cosas ingeniosas, muchas de las cuales tienden a ser minería de datos, pero en última instancia es una herramienta de producción para abarrotar datos en una dirección u otra. No es particularmente respetado en la comunidad de minería de datos.

Data Mining es una disciplina académica completa, centrada en el uso de cierta cantidad de datos (normalmente grandes) para predecir futuras respuestas o comprender mejor los patrones en los datos existentes. Definitivamente es un área excelente para entrar, pero no es algo que simplemente pueda retomar sin un estudio intensivo de matemática y algoritmos. Un buen libro sobre el tema es this one.

"Business Intelligence" es realmente más una palabra de moda que una tecnología específica, y puede significar diferentes cosas para diferentes personas. En la base, la idea sugiere hacer menos tonterías con los datos comerciales, y generalmente se refiere al análisis de tendencias a lo largo del tiempo, a menudo utilizando OLAP. También puede incluir la extracción de datos o algoritmos de inteligencia artificial, pero como no existe una definición rigurosa, cualquier persona que quiera venderle algo le dirá que ofrece "Inteligencia comercial" y espera que no profundice más.

0

La razón de todos estos "nuevos" términos es en realidad el aumento rápido (exponencial) de los datos en el mundo. BI (Wikipage) está fuertemente relacionado con el término "Almacén de datos" (es la entidad central dentro de los procesos de BI), así como con el término "Minería de datos".
Más sobre ETL. Solo agregaría que SSIS es un producto de Microsoft, pero hay docenas de otras herramientas de ETL, las más conocidas son: Informatica, Pentaho, Infosphere Information Server de IBM, Oracle Data Integrator y Talend, etc. Los ETL también suelen estar escritos por cualquier lenguaje de programación (los teníamos en Python e incluso en Golang).

Cuestiones relacionadas