Necesito analizar algunos datos sobre sesiones de internet para una línea DSL. Quería echar un vistazo a cómo se distribuyen las duraciones de la sesión. Pensé que una forma simple de hacer esto sería comenzar haciendo una gráfica de densidad de probabilidad de la duración de todas las sesiones.Obteniendo densidad de probabilidad de datos
He cargado los datos en R y he usado la función density()
. Por lo tanto, era algo como esto
plot(density(data$duration), type = "l", col = "blue", main = "Density Plot of Duration",
xlab = "duration(h)", ylab = "probability density")
Soy nuevo en R y este tipo de análisis. Esto fue lo que encontré al pasar por google. Conseguí un plan, pero me dejaron algunas preguntas. ¿Es esta la función correcta para hacer lo que estoy tratando de hacer o hay algo más?
En la gráfica encontré que la escala del eje Y era de 0 ... 1.5. No entiendo cómo puede ser 1.5, ¿no debería ser de 0 ... 1?
Además, me gustaría obtener una curva más suave. Dado que el conjunto de datos es realmente grande, las líneas son realmente irregulares. Sería mejor tenerlos suavizados cuando presente esto. ¿Cómo voy a hacer eso?
Usted malinterpreta la densidad. La densidad de X puede verse como un valor ** proporcional a ** la posibilidad de extraer de la población un número que se encuentra cerca de X. Ahora, por definición, la integral de la función de densidad es igual a 1.Esto no significa que el valor máximo de la función de densidad debe ser 1, puede ser fácilmente más grande. De hecho, para una distribución F con df = (1,1), el valor máximo para la densidad (en 0) es incluso infinito. –
@Joris sí Ahora me doy cuenta de que no lo interpreté correctamente. de manera bastante simplista, asumí que, dado que es una distribución de probabilidad, sería menor que 1 :). – sfactor