2012-05-16 13 views
9

Estoy trabajando en la clasificación binaria de datos y quiero saber las ventajas y desventajas de usar la máquina de vectores de soporte sobre los árboles de decisión y los algoritmos de refuerzo adaptativo.Ventajas de SVM sobre árboles de deducción y algoritmo de AdaBoost

+1

¿Por qué está etiquetado como Java? –

+0

¿Cuántos puntos de datos y características tiene? ruidoso, escaso? Sugiero comenzar con SVM linear rápido [scikit-learn SGDClassifier] (http://scikit-learn.org/stable/modules/sgd.html). – denis

Respuesta

14

Algo que podría querer hacer es usar weka, que es un buen paquete que puede usar para conectar sus datos y luego probar varios clasificadores de aprendizaje automático para ver cómo funciona cada uno en su conjunto particular. Es un camino bien recorrido para las personas que hacen aprendizaje automático.

Sin saber nada acerca de sus datos en particular, o el problema de clasificación que está tratando de resolver, no puedo ir más allá de simplemente decir cosas aleatorias que sé sobre cada método. Dicho esto, aquí hay un volcado de información y enlaces a algunas diapositivas útiles de aprendizaje automático.

Adaptive Boosting usa un comité de clasificadores de bases débiles para votar en la asignación de clase de un punto de muestra. Los clasificadores básicos pueden ser tocones de decisión, árboles de decisión, SVM, etc. Se necesita un enfoque iterativo. En cada iteración: si el comité está de acuerdo y es correcto acerca de la asignación de clase para una muestra en particular, se convierte en ponderado (menos importante para pasar a la siguiente iteración), y si el comité no está de acuerdo, entonces se vuelve hasta ponderado (más importante para clasificar a la derecha en la próxima iteración). Adaboost es conocido por tener una buena generalización (sin sobreajuste).

SVMs son un primer intento útil. Además, puede usar diferentes núcleos con SVM y obtener no solo límites de decisión lineales sino más forma de funky. Y si coloca L1-regularización en él (variables de holgura), entonces no solo puede evitar el sobreajuste, sino que también puede clasificar datos que no son separables.

Decision trees son útiles debido a su interpretabilidad por casi cualquier persona. Son fáciles de usar. El uso de árboles también significa que también puede hacerse una idea de la importancia de una característica en particular para hacer ese árbol. Algo que quizás desee verificar es árboles adicionales (como MART).

+1

"si el comité está de acuerdo con la asignación de clase para una muestra en particular, se convierte en ponderado". Esto no es exactamente cierto. Si el comité lo vota correctamente (en comparación con la etiqueta de verdad del terreno), entonces está ponderado. Viceversa para subir de peso. –

+0

Buen punto. Corregido en la publicación. – kitchenette

Cuestiones relacionadas