2009-02-23 7 views
16

Estoy leyendo un poco, y me encontré evitando una tienda interna si mi aplicación no necesita hacer un masaje de los datos antes de enviarlos a SQL. ¿Qué es un masaje de datos?¿Qué significa "Masaje de datos"?

+26

A veces los datos se sobrecargan con el trabajo y la familia y necesitan relajarse. A veces, los datos pagan más por un "final feliz" y se ordenan muy bien. = oD – Echostorm

Respuesta

18

Manipular, procesar, alterar, recalcular. En resumen, si solo está moviendo los datos en formato raw, entonces no es necesario usar internalStore, pero si le está haciendo algo antes del almacenamiento, entonces es posible que desee una InternalStore.

-Adam

+0

Nunca se debe suponer la pureza de los datos, por supuesto. :) – EBGreen

+1

No, uno nunca debe confiar implícitamente en la entrada del programa de ningún tipo. Sin embargo, es posible que los controles simples no se consideren como masajes, ya que no se está tocando la información, simplemente mirándolo. –

+1

Eso es verdad. Mi experiencia con los masajes casi siempre ha sido limpiar los datos que ya estaban en un almacén de datos que ingresé desde otro sistema sobre el que no tengo control. – EBGreen

3

limpieza, la normalización, filtrado, ... Simplemente cambiar los datos de alguna manera de la entrada original a una forma que se adapta mejor a su uso.

14

A veces todo el proceso de movimiento de datos se conoce como "ETL", que significa "Extraer, transformar, cargar". Masajear los datos es el paso de "transformación", pero implica correcciones ad-hoc que debe hacer para suavizar los problemas que ha encontrado (como lo hace un masaje con sus músculos) en lugar de transformaciones entre formatos bien conocidos.

piensa que usted podría hacer a los datos "masaje" incluyen:

  • cambiar los formatos de lo que el sistema de fuente emite a lo que el sistema de destino espera, por ejemplo, cambiar el formato de fecha de d/m/y a m/d/y.
  • reemplazar los valores faltantes con los valores predeterminados, p. Suministre "0" cuando no se da una cantidad.
  • Filtrar registros que no son necesarios en el sistema de destino.
  • Verifique la validez de los registros e ignore o informe sobre las filas que causarían un error si intentara insertarlos.
  • Normalice los datos para eliminar las variaciones que deberían ser iguales, p. reemplace la mayúscula con la minúscula, reemplace "01" con "1".
1

Y, finalmente, existe la práctica menos sabrosa de masajear los datos mediante el envío de datos (o el ajuste de los números) cuando no le dan la respuesta que desea. Desafortunadamente, la gente que hace análisis estadísticos a menudo da masajes a los datos para deshacerse de esos molestos valores atípicos que refutan su teoría. Debido a esta práctica que se refiere a la limpieza de datos como la acumulación de los datos es inapropiado. Limpiar los datos para convertirlos en algo que pueda entrar en su sistema (deshacerse de fechas sin sentido como 30/02/2009 porque otra persona los almacenó en varchar en lugar de como fechas, separando los nombres y apellidos en campos separados, corrigiendo todos los datos en mayúsculas , agregar valores predeterminados para los campos que requieren datos cuando no se proporcionan los datos suministrados, etc.) es una cosa: masajear los datos implica una práctica de ajustar los datos de forma inapropiada.

Cuestiones relacionadas