2010-03-20 11 views
5

Muchas univariados decisiones implementaciones alumno árbol (C4.5 etc) existen, pero en realidad alguien sabe multivariantes decisiones algoritmos alumno árbol?multivariado alumno árbol de decisión

+0

¿Podría explicar su pregunta más? Hasta donde yo entiendo el término, C4.5 es un algoritmo multivariante, en el sentido de que toma vectores de la dimensión arbitraria como entrada. – Stompchicken

+0

Sí, C4.5 toma vectores de dimensión arbitraria como entrada. Pero quiero decir univariante/multivariante con respecto al mecanismo de división. Las divisiones univariadas son ejes-ortogonales y las multivariantes se dividen por un hiperplano arbitrario. – Sney

+0

Eso es mucho más claro, pero no tengo una respuesta para ti :) Lo mejor que puedo hacer es sugerir que un conjunto de clasificadores lineales (impulsar, supongo) podría ser de alguna manera equivalente a un árbol de decisión multivariable. – Stompchicken

Respuesta

6

Bennett y Blue A Support Vector Machine Approach to Decision Trees realiza divisiones multivariadas mediante el uso de SVM incrustadas para cada decisión en el árbol.

De forma similar, en Multicategory classification via discrete support vector machines (2009), Orsenigo y Vercellis incrustan una variante multicategoría de máquinas de vectores de soporte discreto (DSVM) en los nodos del árbol de decisión.

+1

¡Estos son documentos interesantes que no conocía antes! De todos modos, no proporcionan ninguna implementación lista para usar para evaluar estos enfoques. ¡Pero marqué esta pregunta como respuestas debido a los enlaces en papel! ¡Los enlaces a las implementaciones son bienvenidos! – Sney

1

Algoritmo de CART para árbol de decisiones se puede hacer en un multivariante. CART es un algoritmo binario de división en oposición a C4.5 que crea un nodo por valor único para valores discretos. Usan el mismo algoritmo para MARS que para valores perdidos también.

Para crear un árbol Multivariante se calcula la mejor división en cada nodo, pero en lugar de tirar todas las divisiones que no fueron lo mejor se toma una parte de ellas (tal vez todas), luego se evalúan todos los atributos de los datos cada una de las divisiones potenciales en ese nodo ponderado por el orden. Por lo tanto, la primera división (que conduce a la ganancia máxima) se pondera a 1. Luego, la siguiente división de ganancia más alta se pondera con una fracción de < 1.0, y así sucesivamente. Donde los pesos disminuyen a medida que la ganancia de esa división disminuye. Ese número se compara con el mismo cálculo de los nodos dentro del nodo izquierdo si está por encima de ese número, a la izquierda. De lo contrario, vete a la derecha Esa es una descripción bastante aproximada, pero esa es una división multi-variante para los árboles de decisión.

0

Sí, hay algunos, como OC1, pero son menos comunes que los que hacen divisiones univariadas. Agregar divisiones multivariables expande enormemente el espacio de búsqueda. Como una especie de compromiso, he visto algunos estudiantes lógicos que simplemente calculan funciones lineales discriminantes y las agregan a la lista de variables candidatas.

Cuestiones relacionadas