2012-03-04 10 views
7

Tengo un gran número (100-150) de conjuntos de datos pequeños (aproximadamente 1 kbyte). Llamaremos a estos los conjuntos de datos 'buenos'. También tengo una cantidad similar de datasets 'malos'.Minería de asociación con gran cantidad de pequeños conjuntos de datos

Ahora estoy buscando software (o tal vez algoritmo (s)) para encontrar las reglas para lo que constituye un conjunto de datos "bueno" frente a un conjunto de datos "malo".

Lo importante aquí es la capacidad del software para manejar los múltiples conjuntos de datos en lugar de solo uno grande.

Ayuda muy apreciada.
Paul.

+0

¿Qué es el conjunto de datos? ¿texto? – amit

+1

¿Seguro que no desea * clasificación * en lugar de minería de reglas de asociación? –

Respuesta

1

Una forma común de hacerlo es usando el k-nearest neighbor.

Extraiga los campos de su conjunto de datos, por ejemplo, si su conjunto de datos es un texto, una forma común de extraer campos es usar el bag of words.

Almacena el "conjunto de entrenamiento", y cuando llega un nuevo conjunto de datos [que no está etiquetado] - encuentra los k vecinos más cercanos a él [según los campos extraídos]. Lable el nuevo conjunto de datos como la mayoría de los k vecinos más cercanos [del conjunto de entrenamiento].

Otro método común es usar un decision tree. El problema con los árboles de decisión: no hagas que la toma de decisiones sea demasiado específica. Un algoritmo existente que podría usarse para crear un buen árbol [heurístico] es ID3

+1

Básicamente, puede aplicar cualquier método de clasificación para ese problema, incluidos SVM, ANN, kNN, árboles de decisión, bayes ingenuos, ... – alfa

2

Parece un problema de clasificación. Si tiene muchos conjuntos de datos etiquetados como "buenos" o "malos", puede entrenar a un clasificador para predecir si un nuevo conjunto de datos es bueno o malo.

Algoritmos como el árbol de decisión, k-neighboor más cercano, SVM, redes neuronales son herramientas potenciales que podría utilizar.

Sin embargo, debe determinar qué atributos usará para entrenar al clasificador.

Cuestiones relacionadas