2010-05-20 15 views
36

¿Podría alguien explicarle a los estadísticamente ingenuos cuál es la diferencia entre Multiple R-squared y Adjusted R-squared? Estoy haciendo un análisis de regresión de una sola variable aleatoria de la siguiente manera:¿Cuál es la diferencia entre R-cuadrado múltiple y R-cuadrado ajustado en una regresión de mínimos cuadrados de una sola variable?

v.lm <- lm(epm ~ n_days, data=v) 
print(summary(v.lm)) 

Resultados:

Call: 
lm(formula = epm ~ n_days, data = v) 

Residuals: 
    Min  1Q Median  3Q  Max 
-693.59 -325.79 53.34 302.46 964.95 

Coefficients: 
      Estimate Std. Error t value Pr(>|t|)  
(Intercept) 2550.39  92.15 27.677 <2e-16 *** 
n_days  -13.12  5.39 -2.433 0.0216 * 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 410.1 on 28 degrees of freedom 
Multiple R-squared: 0.1746,  Adjusted R-squared: 0.1451 
F-statistic: 5.921 on 1 and 28 DF, p-value: 0.0216 
+5

StatsOverflow es una excelente idea. Espero que alguien lo haya sugerido como un nuevo sitio de StackExchange. – neilfws

+2

Vaya y vote por él en: http://meta.stackexchange.com/questions/5547/proposal-for-statistics-data-mining-stackexchange-site – fmark

+4

Se refiere a http://www.crossvalidated.com (también conocido como http : //stats.stackexchange.com)? –

Respuesta

57

El "ajuste" en ajustado R-cuadrado se relaciona con el número de variables y el número de observaciones.

Si sigue agregando variables (predictores) a su modelo, R-cuadrado mejorará, es decir, los predictores aparecerán para explicar la varianza, pero parte de esa mejora puede deberse únicamente al azar. Así que R-cuadrado ajustado intenta corregir esto, teniendo en cuenta la relación (N-1)/(N-k-1) donde N = número de observaciones y k = número de variables (predictores).

Probablemente no es una preocupación en su caso, ya que tiene una única variante.

Algunas referencias:

  1. How high, R-squared?
  2. Goodness of fit statistics
  3. Multiple regression
  4. Re: What is "Adjusted R^2" in Multiple Regression
6

El R cuadrado no es dependiente en el número de variables en el modelo. El ajustado R-cuadrado es.

El R-cuadrado ajustado agrega una penalización por agregar variables al modelo que no están correlacionadas con la variable que intentas explicar. Puedes usarlo para probar si una variable es relevante para lo que intentas explicar.

Ajustado R-cuadrado es R-cuadrado con algunas divisiones agregadas para hacerlo dependiente del número de variables en el modelo.

+0

Nota: Agregar un predictor a una regresión casi siempre aumentará r-squared, aunque solo sea por un poco debido al muestreo aleatorio. –

+0

ty Jeromy, quise decir "bajar" en lugar de subir. El R-cuadrado nunca caerá como resultado de agregar una nueva variable al modelo. El R-cuadrado ajustado puede subir o bajar si se agrega una nueva variable. Fue un mal ejemplo, así que lo eliminé. – Jay

8

El R-cuadrado ajustado está cerca pero es diferente del valor de R2. En lugar de basarse en la suma de cuadrados SSR explicada y la suma total de cuadrados SSY, se basa en la varianza global (una cantidad que normalmente no calculamos), s2T = SSY/(n - 1) y la varianza de error MSE (de la tabla ANOVA) y se resuelve de esta manera: ajustado R-cuadrado = (s2T - MSE)/s2T.

Este enfoque proporciona una mejor base para juzgar la mejora en un ajuste debido a la adición de una variable explicativa, pero no tiene la simple interpretación resumida que tiene R2.

Si no he cometido un error, debe verificar los valores de R cuadrado ajustado y R cuadrado de la siguiente manera:

s2T <- sum(anova(v.lm)[[2]])/sum(anova(v.lm)[[1]]) 
MSE <- anova(v.lm)[[3]][2] 
adj.R2 <- (s2T - MSE)/s2T 

Por otro lado, R2 es: SSR/SSY, donde SSR = SSY - SSE

attach(v) 
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2) 
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2) 
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2) 
R2 <- SSR/SSY 
+0

Hay un error tipográfico en la última casilla de códigos: la llamada 'deviance (v.lm)' dará como resultado el modelo 'SSR', que a su vez significa' SSE <- (SSY - SSR) '. En cuanto al 'SSY', una forma más sencilla de recuperarlo sin tener que volver a montar el modelo sería:' SSY <- sum (anova (v.lm) $ "Sum Sq") '. – landroni

+0

En realidad, lo que quise decir es que usar 'SSR' para explicar SS era contraintuitivo, y que' SSR' indica más fácilmente SS residual, mientras que 'SSE' explica SS ... – landroni

+0

SSR es la suma de cuadrados debido a la regresión. Residual Rum of Rquares es "RSS" https://en.wikipedia.org/wiki/Explained_sum_of_squares –

2

Tenga en cuenta que, además de número de variables predictoras, la fórmula ajustado R cuadrado anteriormente también se ajusta para tamaño de la muestra. Una pequeña muestra dará un R-cuadrado engañosamente grande.

Ping Yin & Xitao Fan, J. of Experimental Education 69 (2): 203-224, "Estimación de la contracción R-cuadrado en regresión múltiple", compara diferentes métodos para ajustar r-cuadrado y concluye que el comúnmente utilizado los citados anteriormente no son buenos. Recomiendan la fórmula Olkin & Pratt.

Sin embargo, he visto algunos indicios de que el tamaño de la población tiene un efecto mucho mayor que el que indica cualquiera de estas fórmulas. No estoy convencido de que ninguna de estas fórmulas sea lo suficientemente buena para permitirle comparar regresiones hechas con tamaños de muestra muy diferentes (por ejemplo, 2,000 contra 200,000 muestras, las fórmulas estándar casi no harían ajustes basados ​​en el tamaño de la muestra). Haría una validación cruzada para verificar el r-cuadrado en cada muestra.

Cuestiones relacionadas