2010-09-16 17 views

Respuesta

24

Si no tiene suficientes datos para entrenar su algoritmo, puede aumentar el tamaño de su conjunto de entrenamiento seleccionando elementos (uniformemente) al azar y duplicándolos (con reemplazo).

35

Tome una muestra de la hora del día en que se despierta los sábados. Algunos viernes por la noche tiene demasiadas bebidas, por lo que se despierta temprano (pero vuelve a la cama). Otros días te levantas a una hora normal. Otros días que duermen en

Éstos son los resultados:.

[3.1, 4.8, 6.3, 6.4, 6.6, 7.3, 7.5, 7.7, 7.9, 10.1]

¿Cuál es el tiempo medio en que ¿te despiertas?

Bueno, son las 6,8 (en punto, o 6:48). Un toque temprano para mí.

¿Cuán buena es esta predicción de cuándo despertarás el próximo sábado? ¿Puedes cuantificar cuán equivocado es probable que seas?

Es una muestra bastante pequeña, y no estamos seguros de la distribución del proceso subyacente, por lo que podría no ser una buena idea utilizar técnicas estadísticas paramétricas estándar y daga ;.

¿Por qué no tomamos una muestra aleatoria de nuestra muestra y calculamos la media y repetimos esto? Esto nos dará una estimación de cuán mala es nuestra estimación.

hice esto varias veces, y la media fue de entre 5,98 y 7,8

Esto se llama el bootstrap, y fue mencionado primero por Bradley Efron en 1979.

Una variante se denomina jackknife, donde muestra todos menos uno de sus datos, tome la media y repita. La media de jackknife es 6.8 (igual que la media aritmética) y oscila entre 6.4 y 7.2.

Otra variante se llama k-veces validación cruzada, donde (al azar) dividir el conjunto de datos en k secciones de igual tamaño, calcular la media de todas menos una sección, y repite k veces. La media de validación cruzada de 5 veces es 6.8 y varía de 4 a 9.

& dagger; Esta distribución pasa a ser Normal. El intervalo de confianza del 95% de la media es de 5,43 a 8,11, razonablemente cercano pero mayor que el promedio de arranque.

+0

¿Alguna crítica/pensamientos críticos sobre posibles sesgos introducidos por el bootstrapping? –

+1

Me tomaría el tiempo para leer el original: http://www.stat.cmu.edu/~fienberg/Statistics36-756/Efron1979.pdf –

Cuestiones relacionadas