4 votos

R-cuadrado y distribución F

Estoy tratando de entender las relaciones entre el coeficiente de determinación $R^2$ y las distribuciones $F$.

A continuación, se presentan las notaciones que utilizo:

Supongamos un modelo de regresión lineal simple $y_i=ax_i+b + \varepsilon_i, 1\leq i\leq n$, donde los errores $\varepsilon_i$ siguen una distribución normal con media $0$ y varianza constante $\sigma^2$. La línea de regresión calculada por OLS es $y=\hat{a}x+\hat{b}$ y $\hat{y}_i=\hat{a} x_i +\hat{b}$ es el valor predicho (en el punto $x_i$) y $\hat{\varepsilon}_i=y_i-\hat{y}_i$ es el residual.

Sea $SSR=\sum(\hat{y}_i - \bar{y})^2$ la suma de cuadrados explicada por la regresión, $SSE=\sum(y_i - \hat{y}_i)^2$ la suma de errores al cuadrado y $SST=\sum(y_i - \bar{y})^2$ la suma total de cuadrados.

Luego $R^2=\frac{SSR}{SST}=1-\frac{SSE}{SST}$.

Lo que entendí de los documentos sobre regresión lineal es que, bajo la hipótesis nula de que $a=0$ (la pendiente de la verdadera línea de regresión es cero), las dos estadísticas $ \frac{SSR}{\sigma^2}$ y $ \frac{SST}{\sigma^2}$ siguen (respectivamente) una distribución chi-cuadrado con $1$ df y una distribución chi-cuadrado con $n-1$ df, y que son independientes.

Entonces, en mi opinión, la razón $\frac{\frac{SSR}{\sigma^2} / 1}{\frac{SST}{\sigma^2} / (n-1)}$ debería seguir una distribución $F(1, n-1)$, una distribución Fisher-Snedecor con $df$ $1$ y $n-1$...

En lugar de encontrar este resultado, lo que veo escrito en todas partes es que $(n-2) \frac{R^2}{1-R^2}$ sigue $F(1, n-2)$...

¿Por qué la gente usa esta última forma en lugar de la anterior? ¿Son equivalentes? Algo se me escapa...

5voto

Aaron Puntos 36

En un modelo con una sola variable explicativa y un término de intercepción tienes grados de libertad de regresión $DF_R = 1$ y grados de libertad residuales $DF_E = n-2$, por lo que obtienes:

$$\begin{equation} \begin{aligned} F \equiv \frac{MSR}{MSE} &= \frac{SSR / DF_R}{SSE / DF_E} \\[6pt] &= \frac{DF_E}{DF_R} \cdot \frac{SSR}{SSE} \\[6pt] &= \frac{DF_E}{DF_R} \cdot \frac{SSR}{SST-SSR} \\[6pt] &= (n-2) \cdot \frac{R^2}{1-R^2}. \\[6pt] \end{aligned} \end{equation}$$

En tus propios cálculos, pareces haber usado un valor incorrecto para los grados de libertad residuales ($n-1$ en lugar de $n-2$), por lo que tu resultado no es equivalente a la forma correcta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X