¿cuál es el arranque de datos en la minería de datos?

Hace poco me encontré con este término, pero realmente no tengo idea de a qué se refiere. He buscado en línea, pero con poca ganancia. Gracias.¿cuál es el arranque de datos en la minería de datos?

Fuente

2010-09-16 Kevin

Si no tiene suficientes datos para entrenar su algoritmo, puede aumentar el tamaño de su conjunto de entrenamiento seleccionando elementos (uniformemente) al azar y duplicándolos (con reemplazo).

Fuente

2010-09-18 14:02:14

En el aprendizaje automático, bootstrapping es un entrenamiento iterativo en un conjunto conocido. http://en.wikipedia.org/wiki/Bootstrapping_(machine_learning)

Fuente

2010-09-16 09:35:21 leonm

no es muy útil solo proporcionar un enlace a wikipedia. es bastante fácil de encontrar por su cuenta :) –

Tome una muestra de la hora del día en que se despierta los sábados. Algunos viernes por la noche tiene demasiadas bebidas, por lo que se despierta temprano (pero vuelve a la cama). Otros días te levantas a una hora normal. Otros días que duermen en

Éstos son los resultados:.

[3.1, 4.8, 6.3, 6.4, 6.6, 7.3, 7.5, 7.7, 7.9, 10.1]

¿Cuál es el tiempo medio en que ¿te despiertas?

Bueno, son las 6,8 (en punto, o 6:48). Un toque temprano para mí.

¿Cuán buena es esta predicción de cuándo despertarás el próximo sábado? ¿Puedes cuantificar cuán equivocado es probable que seas?

Es una muestra bastante pequeña, y no estamos seguros de la distribución del proceso subyacente, por lo que podría no ser una buena idea utilizar técnicas estadísticas paramétricas estándar y daga ;.

¿Por qué no tomamos una muestra aleatoria de nuestra muestra y calculamos la media y repetimos esto? Esto nos dará una estimación de cuán mala es nuestra estimación.

hice esto varias veces, y la media fue de entre 5,98 y 7,8

Esto se llama el bootstrap, y fue mencionado primero por Bradley Efron en 1979.

Una variante se denomina jackknife, donde muestra todos menos uno de sus datos, tome la media y repita. La media de jackknife es 6.8 (igual que la media aritmética) y oscila entre 6.4 y 7.2.

Otra variante se llama k-veces validación cruzada, donde (al azar) dividir el conjunto de datos en k secciones de igual tamaño, calcular la media de todas menos una sección, y repite k veces. La media de validación cruzada de 5 veces es 6.8 y varía de 4 a 9.

& dagger; Esta distribución pasa a ser Normal. El intervalo de confianza del 95% de la media es de 5,43 a 8,11, razonablemente cercano pero mayor que el promedio de arranque.

Fuente

2010-11-30 08:22:22

¿Alguna crítica/pensamientos críticos sobre posibles sesgos introducidos por el bootstrapping? –

Me tomaría el tiempo para leer el original: http://www.stat.cmu.edu/~fienberg/Statistics36-756/Efron1979.pdf –

¿cuál es el arranque de datos en la minería de datos?

Respuesta

Cuestiones relacionadas