Hace poco me encontré con este término, pero realmente no tengo idea de a qué se refiere. He buscado en línea, pero con poca ganancia. Gracias.¿cuál es el arranque de datos en la minería de datos?
Respuesta
Si no tiene suficientes datos para entrenar su algoritmo, puede aumentar el tamaño de su conjunto de entrenamiento seleccionando elementos (uniformemente) al azar y duplicándolos (con reemplazo).
En el aprendizaje automático, bootstrapping es un entrenamiento iterativo en un conjunto conocido. http://en.wikipedia.org/wiki/Bootstrapping_(machine_learning)
Tome una muestra de la hora del día en que se despierta los sábados. Algunos viernes por la noche tiene demasiadas bebidas, por lo que se despierta temprano (pero vuelve a la cama). Otros días te levantas a una hora normal. Otros días que duermen en
Éstos son los resultados:.
[3.1, 4.8, 6.3, 6.4, 6.6, 7.3, 7.5, 7.7, 7.9, 10.1]
¿Cuál es el tiempo medio en que ¿te despiertas?
Bueno, son las 6,8 (en punto, o 6:48). Un toque temprano para mí.
¿Cuán buena es esta predicción de cuándo despertarás el próximo sábado? ¿Puedes cuantificar cuán equivocado es probable que seas?
Es una muestra bastante pequeña, y no estamos seguros de la distribución del proceso subyacente, por lo que podría no ser una buena idea utilizar técnicas estadísticas paramétricas estándar y daga ;.
¿Por qué no tomamos una muestra aleatoria de nuestra muestra y calculamos la media y repetimos esto? Esto nos dará una estimación de cuán mala es nuestra estimación.
hice esto varias veces, y la media fue de entre 5,98 y 7,8
Esto se llama el bootstrap, y fue mencionado primero por Bradley Efron en 1979.
Una variante se denomina jackknife, donde muestra todos menos uno de sus datos, tome la media y repita. La media de jackknife es 6.8 (igual que la media aritmética) y oscila entre 6.4 y 7.2.
Otra variante se llama k-veces validación cruzada, donde (al azar) dividir el conjunto de datos en k secciones de igual tamaño, calcular la media de todas menos una sección, y repite k veces. La media de validación cruzada de 5 veces es 6.8 y varía de 4 a 9.
& dagger; Esta distribución pasa a ser Normal. El intervalo de confianza del 95% de la media es de 5,43 a 8,11, razonablemente cercano pero mayor que el promedio de arranque.
¿Alguna crítica/pensamientos críticos sobre posibles sesgos introducidos por el bootstrapping? –
Me tomaría el tiempo para leer el original: http://www.stat.cmu.edu/~fienberg/Statistics36-756/Efron1979.pdf –
- 1. Comparación de algoritmos de minería de datos
- 2. Herramienta de minería de datos de Google
- 3. detección de valores atípicos en la minería de datos
- 4. Motores y marcos de minería de datos?
- 5. Minería de datos en una aplicación de Django/Postgres
- 6. ¿Cómo se relaciona BI con la minería de datos?
- 7. Ejemplos de arranque estructural de datos?
- 8. ¿Cuál es el tipo de datos "átomo"?
- 9. Raspado web, raspado de pantalla, sugerencias de minería de datos?
- 10. Hadoop Machine learning/idea de proyecto de minería de datos?
- 11. Herramientas de código abierto de minería de datos
- 12. Alternativas de software de fuente abierta para minería de datos
- 13. ¿Cuál es el estado de la base de datos HTML5?
- 14. Comparación/Agrupamiento de trayectorias (datos GPS de (x, y) puntos) y Minería de datos
- 15. ¿Cuál es la diferencia entre el conjunto de datos y la base de datos?
- 16. ¿Cuál es el tipo de datos de puntero en c?
- 17. ¿Cuál es la mejor manera de validar datos en mongo?
- 18. cuál es la forma correcta de separar datos en couchbase
- 19. ¿Cuál es el significado de la memoria en 0000: 7c00 a la secuencia de arranque?
- 20. ¿Cuál es la mejor manera de migrar datos en django
- 21. minería a gran escala con los datos clojure
- 22. ¿Cuál es la mejor forma de archivar datos en una base de datos Oracle?
- 23. ¿Cuál es la mejor forma de almacenar datos individuales no repetitivos en una base de datos?
- 24. ¿Cuál es el propósito de los conjuntos de datos?
- 25. Pivoteo de base de datos: ¿cuál es el propósito?
- 26. ¿Cuál es la mejor manera de almacenar datos de tendencia?
- 27. ¿Cuál es la mejor base de datos de objetos Java?
- 28. 'Similitud' en la extracción de datos
- 29. ¿Hay alguna razón para preferir la programación funcional para proyectos de minería de datos?
- 30. ¿cuál es el tipo de datos sin firmar?
no es muy útil solo proporcionar un enlace a wikipedia. es bastante fácil de encontrar por su cuenta :) –