2012-08-31 11 views
5

Estoy usando la interfaz de Python para libsvm, y lo que noto es que después de seleccionar los mejores parámetros C y gamma (kernel RBF) usando la grilla de búsqueda, cuando entrene el modelo y lo valide de forma cruzada (5 veces, si es relevante), la exactitud que recibo es la misma que la proporción de etiquetas en mi conjunto de datos de entrenamiento.libsvm - Precisión de validación cruzada igual que la proporción de etiquetas

Tengo 3947 muestras, y 2898 de ellas tienen la etiqueta -1, y el resto tienen la etiqueta 1. Así que eso es 73.4229% de las muestras.

Y cuando entreno el modelo y validarlo cruz 5 pliegues, esto es lo que me pasa -

optimization finished, #iter = 1529 
nu = 0.531517 obj = -209.738688, 
rho = 0.997250 nSV = 1847, nBSV = 1534 
Total nSV = 1847 
Cross Validation Accuracy = 73.4229% 

¿Quiere decir esto que la SVM no está tomando en cuenta las características? ¿O que son los datos culpables aquí? ¿Están ambos relacionados para nada? Simplemente no puedo pasar el número 73.4229. Además, se supone que el número de vectores de soporte es mucho menor que el tamaño del conjunto de datos, pero en este caso, no parece ser así.

En general, ¿qué significa cuando la precisión de la validación cruzada es la misma que la relación de las etiquetas en el conjunto de datos?

Respuesta

6

Su conjunto de datos no está equilibrado, lo que significa que un gran porcentaje pertenece a la misma clase. Esto da como resultado lo que se llama un clasificador predeterminado o de clase mayoritaria, donde se logra una alta precisión simplemente clasificando todo como parte de la clase mayoritaria. Así que tienes razón en que no está teniendo en cuenta las características, debido a los datos.

El README de libsv sugiere variar los pesos de las penalizaciones para tratar con esto. Y aquí hay una pregunta relacionada: https://stats.stackexchange.com/questions/20948/best-way-to-handle-unbalanced-multiclass-dataset-with-svm

Para obtener más información acerca de datos desequilibrados, consulte la sección 7 de A User's Guide to Support Vector Machines.

Cuestiones relacionadas