Por lo tanto, actualmente estoy tratando de dibujar el intervalo de confianza para un modelo lineal. Descubrí que debería usar predict.lm() para esto, pero tengo algunos problemas para entender realmente la función y no me gusta usar funciones sin saber qué está sucediendo. Encontré varias instrucciones sobre este tema, pero solo con el código R correspondiente, sin una explicación real. Esta es la función propia:Predict.lm() en R: cómo obtener bandas de predicción no constantes alrededor de los valores ajustados
## S3 method for class 'lm'
predict(object, newdata, se.fit = FALSE, scale = NULL, df = Inf,
interval = c("none", "confidence", "prediction"),
level = 0.95, type = c("response", "terms"),
terms = NULL, na.action = na.pass,
pred.var = res.var/weights, weights = 1, ...)
Ahora, lo que tengo problemas para comprender:
1) newdata
An optional data frame in which to look for variables
with which to predict. If omitted, the fitted values are used.
Todo el mundo parece utilizar NewData para esto, pero no acabo de entender por qué. Para calcular el intervalo de confianza, obviamente necesito los datos para los cuales este intervalo es (como el número de observaciones, la media de x, etc.), así que no puede ser lo que significa. Pero luego: ¿qué significa?
2) interval
Type of interval calculation.bien .. pero lo que es "ninguna" para?
3a) type
Type of prediction (response or model term).3b) terms
If type="terms", which terms (default is all terms)3a: ¿Puedo conseguir por que el intervalo de confianza para una variable específica en mi modelo? Y si es así, ¿para qué es 3b entonces? Si puedo especificar el término en 3a, no tendría sentido hacerlo nuevamente en 3b ... así que supongo que estoy equivocado nuevamente, pero no puedo entender por qué.
Supongo que algunos de ustedes pensarán: ¿Por qué no prueban esto? Y lo haría (incluso si tal vez no resolviera todo aquí), pero ahora mismo no sé cómo hacerlo. Como ahora no sé para qué son los newdata, no sé cómo usarlo y si lo intento, no obtengo el intervalo de confianza correcto. De alguna manera, es muy importante cómo eliges esa información, ¡pero simplemente no entiendo!
EDITAR: Quiero añadir que mi intención es entender cómo funciona predict.lm. Con eso quiero decir que no entiendo si funciona de la forma en que creo. Es decir, calcula y-hat (valores pronosticados) y utiliza agrega/resta para cada uno de los límites upr/lwr del intervalo para calcular varios puntos de datos (que parecen una línea de confianza). Entonces entendería por qué es necesario tener la misma longitud en los nuevos datos que en el modelo lineal.
La sección de Detalles de la documentación discute el argumento 'newdata' con cierta extensión. ¿Qué parte de esa discusión sigue siendo confusa? – joran
Supongo que esto es lo que me confunde: "predicción.lm produce valores pronosticados, obtenidos al evaluar la función de regresión en el cuadro datos nuevos" (en la explicación general) y "Si se omite newdata, las predicciones se basan en los datos utilizados para la ajuste." para newdata. ¿Por qué trataría de obtener intervalos de confianza que no están conectados en mi regresión real? Así es como entiendo esta oración, así que esto es lo que me confunde. Luego explica cómo se manejan los valores perdidos en ese caso, ¡pero ya lucho con la primera parte! – lisa
Puede que le interesen los intervalos _prediction_ para nuevas observaciones. – joran