2011-10-01 15 views
11

En k veces tenemos esto: divide los datos en k subconjuntos de (aproximadamente) de igual tamaño. Entrenas la red k veces, cada vez que salgas de fuera de uno de los subconjuntos de la capacitación, pero usando solo el subconjunto omitido a calcula cualquier criterio de error que te interese. Si k es igual al tamaño de la muestra , esto se denomina validación cruzada "dejar uno fuera". "Leave-v-out" es una versión más elaborada y costosa de de validación cruzada que involucra omitiendo todos los posibles subconjuntos de v cases.validación cruzada 10 veces

¿Qué significa el entrenamiento y las pruebas de Término? No lo entiendo.

¿podría decirme algunas referencias donde puedo aprender este algoritmo con un ejemplo?

Train classifier on folds: 2 3 4 5 6 7 8 9 10; Test against fold: 1 
Train classifier on folds: 1 3 4 5 6 7 8 9 10; Test against fold: 2 
Train classifier on folds: 1 2 4 5 6 7 8 9 10; Test against fold: 3 
Train classifier on folds: 1 2 3 5 6 7 8 9 10; Test against fold: 4 
Train classifier on folds: 1 2 3 4 6 7 8 9 10; Test against fold: 5 
Train classifier on folds: 1 2 3 4 5 7 8 9 10; Test against fold: 6 
Train classifier on folds: 1 2 3 4 5 6 8 9 10; Test against fold: 7 
Train classifier on folds: 1 2 3 4 5 6 7 9 10; Test against fold: 8 
Train classifier on folds: 1 2 3 4 5 6 7 8 10; Test against fold: 9 
Train classifier on folds: 1 2 3 4 5 6 7 8 9; Test against fold: 10 
+0

Ver [tipos comunes de validación cruzada] (http: //en.wikipedia.org/wiki/Cross-validation_% 28statistics% 29 # Common_types_of_cross-validation) en Wikipedia. –

Respuesta

24

En resumen: Formación es el proceso de proporcionar retroalimentación al algoritmo con el fin de ajustar la capacidad de predicción del clasificador (s) que produce.

La prueba es el proceso de determinar la precisión realista de los clasificadores que fueron producidos por el algoritmo. Durante la prueba, el (los) clasificador (es) reciben instancias de datos nunca antes vistas para confirmar definitivamente que la precisión del clasificador no es drásticamente diferente de la del entrenamiento.

Sin embargo, te falta un paso clave en el medio: la validación (que es a lo que te refieres en la validación cruzada de 10 veces/k veces).

La validación se realiza (normalmente) después de cada paso de capacitación y se realiza para ayudar a determinar si el clasificador está sobreajustado. El paso de validación no proporciona ninguna retroalimentación al algoritmo con el fin de ajustar el clasificador, pero ayuda a determinar si se está produciendo un sobreajuste y señala cuándo se debe finalizar el entrenamiento.

pensar en el proceso de la siguiente manera:

1. Train on the training data set. 
2. Validate on the validation data set. 
if(change in validation accuracy > 0) 
    3. repeat step 1 and 2 
else 
    3. stop training 
4. Test on the testing data set. 
+0

¡Muchas gracias! – Nickool

+0

@nik parsa, disfruta. – Kiril

15

En el método k veces, hay que dividir los datos en segmentos k, k-1 de ellos se utilizan para la formación, mientras que uno se queda y utilizado para la prueba. Se realiza k veces, la primera vez, el primer segmento se usa para la prueba y el restante se usa para el entrenamiento, luego el segundo segmento se usa para la prueba y el restante se usa para el entrenamiento, y así sucesivamente. Está claro a partir de su ejemplo de 10 veces, por lo que debe ser simple, leer de nuevo.

Ahora acerca de qué tipo de formación es y lo que la prueba es:

Formación en la clasificación es la parte en la que se crea un modelo de clasificación, utilizando algún algoritmo, algoritmos populares para crear modelos de formación son ID3, C4.5 etc.

Prueba significa evaluar el modelo de clasificación ejecutando el modelo sobre los datos de prueba, y luego creando una matriz de confusión y luego calculando la precisión y la tasa de error del modelo.

En el método K-fold, se crean k modelos (como se desprende de la descripción anterior) y se selecciona el modelo más preciso para la clasificación.

+0

Gracias SpeedBirdNine ambos fueron perfectos Elijo el más pronto – Nickool

+4

"el modelo más preciso para la clasificación es el seleccionado". No estoy de acuerdo aquí. El propósito del método k-fold es probar el rendimiento del modelo sin el sesgo de la partición del conjunto de datos calculando el rendimiento medio (precisión u otra) en todas las k particiones. Si selecciona la mejor partición, sesga completamente los resultados en su beneficio y si está escribiendo un artículo científico (por ejemplo ...), sus pares no deberían aceptar el artículo por este motivo. –

Cuestiones relacionadas