Estoy usando la interfaz de Python para libsvm, y lo que noto es que después de seleccionar los mejores parámetros C
y gamma
(kernel RBF) usando la grilla de búsqueda, cuando entrene el modelo y lo valide de forma cruzada (5 veces, si es relevante), la exactitud que recibo es la misma que la proporción de etiquetas en mi conjunto de datos de entrenamiento.libsvm - Precisión de validación cruzada igual que la proporción de etiquetas
Tengo 3947 muestras, y 2898 de ellas tienen la etiqueta -1, y el resto tienen la etiqueta 1. Así que eso es 73.4229% de las muestras.
Y cuando entreno el modelo y validarlo cruz 5 pliegues, esto es lo que me pasa -
optimization finished, #iter = 1529
nu = 0.531517 obj = -209.738688,
rho = 0.997250 nSV = 1847, nBSV = 1534
Total nSV = 1847
Cross Validation Accuracy = 73.4229%
¿Quiere decir esto que la SVM no está tomando en cuenta las características? ¿O que son los datos culpables aquí? ¿Están ambos relacionados para nada? Simplemente no puedo pasar el número 73.4229. Además, se supone que el número de vectores de soporte es mucho menor que el tamaño del conjunto de datos, pero en este caso, no parece ser así.
En general, ¿qué significa cuando la precisión de la validación cruzada es la misma que la relación de las etiquetas en el conjunto de datos?