2010-02-06 19 views
5

¿Existen comparaciones de algoritmos de minería de datos? Comparaciones en términos de rendimiento, precisión y la cantidad requerida de datos para generar el modelo robusto. Parece que los algoritmos de aprendizaje de conjunto, como el embolsado y el refuerzo, se consideran los más precisos en este momento. No tengo ningún problema específico para resolver. Es solo una pregunta teórica.Comparación de algoritmos de minería de datos

Respuesta

8

Debe buscar en la web artículos de encuestas sobre minería de datos.

Aquí hay una: Top Ten Algorithms in Data Mining, que da una clasificación en lugar de una al lado de la otra. (Podría tener eso, sin embargo, no he revisado el documento).

3

Es muy difícil comparar los algoritmos de aprendizaje automático en general en términos de robustez y precisión. Sin embargo, uno puede estudiar algunos de sus pros y contras. Considero a continuación algunos de los algoritmos de aprendizaje de máquina más conocidos (esto no es de ninguna manera una explicación completa de las cosas, solo mi opinión):

Arboles de decisión: más prominentemente el algoritmo C4.5. Tienen la ventaja de producir un modelo fácil de interpretar. Sin embargo, son susceptibles de sobreajuste. Existen muchas variantes.

Bayesian Networks tiene fuertes raíces estadísticas. Son especialmente útiles en dominios donde la inferencia se realiza a través de datos incompletos.

Las redes neuronales artificiales son ampliamente utilizadas y una técnica poderosa. En teoría, son capaces de aproximar cualquier función arbitraria. Sin embargo, requieren ajustar una gran cantidad de parámetros (estructura de red, número de nodos, funciones de activación, ...). También tienen la desventaja de trabajar como una caja negra (modelo difícil de interpretar)

La máquina de vectores de soporte se considera quizás una de las técnicas más potentes. Utilizando el famoso truco del kernel, en teoría siempre se puede lograr el 100% de separabilidad. A diferencia de ANN, buscan optimizar un problema que se puede resolver de forma única (sin minimas locales). Sin embargo, pueden ser computacionalmente intensivos y difíciles de aplicar a grandes conjuntos de datos. Las SVM son definitivamente un área de investigación abierta.

Luego hay una clase de algoritmos de metaaprendizaje, como las técnicas de aprendizaje de conjunto, como ensacar, impulsar, apilar, etc. No son completos en sí mismos, sino que se utilizan para mejorar y combinar otros algoritmos.

Debo mencionar finalmente que ningún algoritmo es mejor que otro en general, y que la decisión de elegir depende en gran medida del dominio en el que nos encontremos, y los datos y cómo se preprocesan entre muchos otros factores.

+4

Estamos de acuerdo con la dependencia del dominio. Creo que el "teorema del almuerzo gratis" es la palabra mágica aquí. – mcdowella

2

ROC curves han demostrado ser útiles para la evaluación de las técnicas de aprendizaje automático y particularmente en la comparación y evaluación de diferentes algoritmos de clasificación. Puede encontrar útil este introduction to ROC analysis.

0

Según su pregunta, parece que le interesan los algoritmos de clasificación. En primer lugar, me gustaría informarle que la minería de datos no solo se limita a la clasificación. Hay varias otras tareas de minería de datos, como minería de patrones frecuentes, clustering, etc.

Para responder a su pregunta, el rendimiento depende del algoritmo, pero también del conjunto de datos. Para algunos conjuntos de datos, algunos algoritmos pueden proporcionar una mayor precisión que para otros conjuntos de datos. Además de los algoritmos de clasificación clásicos descritos en la mayoría de los libros de minería de datos (C4.5, etc.), hay una gran cantidad de trabajos de investigación publicados sobre estos temas. Si quiere saber qué algoritmos generalmente funcionan mejor ahora, le sugiero que lea los documentos de investigación.Los artículos de investigación generalmente ofrecen una comparación de rendimiento con algoritmos previos. Pero como dije, el rendimiento puede depender de sus datos. ¡Entonces deberías probar los algoritmos para averiguarlo!

Cuestiones relacionadas