34 votos

Interpretación geométrica de la correlación múltiple coeficiente de $R$ y el coeficiente de determinación ($R^2$

Estoy interesado en el sentido geométrico de la correlación múltiple $R$ y el coeficiente de determinación ($R^2$ en la regresión $y_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i $, o en notación de vector,

$$\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon}$$

Aquí, el diseño de la matriz de $\mathbf{X}$ $n$ filas y $k$ columnas, de las cuales la primera es $\mathbf{x}_1 = \mathbf{1}_n$, un vector de 1s que corresponde a la intersección $\beta_1$.

La geometría es más interesante en el $n$-dimensional tema espacio, en lugar de en el $k$-dimensiones de la variable en el espacio. Definir el sombrero de la matriz:

$$\mathbf{H} = \mathbf{X \left(X^\top X \right)}^{-1} \mathbf{X}^\top$$

Esta es una proyección ortogonal sobre el espacio columna de a $\mathbf{X}$, es decir, el plano que pasa por el origen se extendió por el $k$ vectores que representan cada variable $\mathbf{x}_i$, la primera de las cuales es $\mathbf{1}_n$. A continuación, $\mathbf{H}$ proyectos el vector de respuestas observadas $\mathbf{y}$ a su "sombra" en el plano, el vector de los valores ajustados $\mathbf{\hat{y}} = \mathbf{Hy}$, y si miramos a lo largo de la ruta de acceso de la proyección vemos que el vector de residuos $\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}$ de las formas que el tercer lado de un triángulo. Esto debería proporcionar nosotros con dos rutas para una interpretación geométrica de la $R^2$:

  1. El cuadrado de la correlación múltiple coeficiente de, $R$, que se define como la correlación entre el$\mathbf{y}$$\mathbf{\hat{y}}$. Esto aparecerá geométricamente como el coseno de un ángulo.
  2. En términos de las longitudes de los vectores: por ejemplo,"$SS_\text{residual} = \sum_{i=1}^{n}e_i^2 = \|\mathbf{e}\|^2$.

Yo estaría encantado de ver un breve relato que explica:

  • Los detalles más finos de (1) y (2),
  • Por qué (1) y (2) son equivalentes,
  • Brevemente, cómo la geométrica visión nos permite visualizar las propiedades básicas de $R^2$, por ejemplo, ¿por qué va a 1 cuando la varianza del ruido llega a 0. (Después de todo, si no podemos intuir a partir de nuestra visualización, a continuación, no es más que una bonita imagen.)

Agradezco esto es más sencillo si las variables están centradas en primer lugar, que elimina la intersección de la cuestión. Sin embargo, en la mayoría de los libros de texto de las cuentas en las que se introduce de regresión múltiple, el diseño de la matriz de $\mathbf{X}$ es como que les presenté. Por supuesto que está bien, si de una exposición se adentra en el espacio generado por los centrados en las variables, pero para la penetración en el libro de texto de álgebra lineal, sería muy útil para relacionar esto con lo que está sucediendo geométricamente en el uncentred situación. Un muy perspicaz respuesta podría explicar exactamente qué se está rompiendo geométricamente cuando el término de intersección se cae , es decir, cuando el vector $\mathbf{1}_n$ es eliminado del sistema generador. No creo que este último punto puede ser abordado teniendo en cuenta la centrada en las variables solo.

73voto

Silverfish Puntos 6909

Si hay un término constante en el modelo, a continuación, $\mathbf{1_n}$ se encuentra en la columna de espacio de $\mathbf{X}$ (como $\bar{Y}\mathbf{1_n}$, que serán de utilidad más adelante). El amueblada $\mathbf{\hat{Y}}$ es la proyección ortogonal de la observó $\mathbf{Y}$ sobre el plano formado por la columna de espacio. Esto significa que el vector de residuos $\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}$ es perpendicular al plano, y de ahí a $\mathbf{1_n}$. Teniendo en cuenta el producto escalar podemos ver $\sum_{i=1}^n e_i = 0$, por lo que los componentes de $\mathbf{e}$ deben sumar cero. Desde $Y_i = \hat{Y_i} + e_i$ llegamos a la conclusión de que $\sum_{i=1}^n Y_i = \sum_{i=1}^n \hat{Y_i}$, de modo que ambos equipados y las respuestas observadas han significar $\bar{Y}$.

Vectors in subject space of multiple regression

Las líneas de puntos en el diagrama representan a $\mathbf{Y} - \bar{Y}\mathbf{1_n}$$\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}$, los cuales son el centrado de los vectores de la observó y equipado respuestas. El coseno del ángulo de $\theta$ entre estos vectores será, pues, la correlación de $Y$$\hat{Y}$, que, por definición, es la correlación múltiple coeficiente de $R$. El triángulo de estos vectores de la forma con el vector de los residuos es en ángulo recto desde $\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}$ se encuentra en la plana, sino $\mathbf{e}$ es ortogonal a la misma. Por lo tanto:

$$R = \cos(\theta) = \frac{\text{adj}}{\text{hyp}} = \frac{\|\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}\|}{\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|} $$

We could also apply Pythagoras to the triangle:

$$\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|^2 = \|\mathbf{Y} - \mathbf{\hat{Y}}\|^2 + \|\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}\|^2 $$

Which may be more familiar as:

$$\sum_{i=1}^{n} (Y_i - \bar{Y})^2 = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 + \sum_{i=1}^{n} \hat{Y}_i - \bar{Y})^2 $$

This is the decomposition of the sums of squares, $SS_{\text{total}} = SS_{\text{residual}} + SS_{\text{regresión}}$.

The standard definition for the coefficient of determination is:

$$R^2 = 1 - \frac{SS_{\text{residual}}}{SS_{\text{total}}} = 1 - \frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{\sum_{i=1}^n (y_i - \bar{y})^2} = 1 - \frac{\|\mathbf{Y} - \mathbf{\hat{Y}}\|^2}{\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|^2}$$

When the sums of squares can be partitioned, it takes some straightforward algebra to show this is equivalent to the "proportion of variance explained" formulation,

$$R^2 = \frac{SS_{\text{regresión}}}{SS_{\text{total}}} = \frac{\sum_{i=1}^n (\hat{y}_i - \bar{y})^2}{\sum_{i=1}^n (y_i - \bar{y})^2} = \frac{\|\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}\|^2}{\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|^2}$$

There is a geometric way of seeing this from the triangle, with minimal algebra. The definitional formula gives $R^2 = 1 - \sin^2(\theta)$ and with basic trigonometry we can simplify this to $\cos^2(\theta)$. This is the link between $R^2$ and $R$.

Note how vital it was for this analysis to have fitted an intercept term, so that $\mathbf{1_n}$ was in the column space. Without this, the residuals would not have summed to zero, and the mean of the fitted values would not have coincided with the mean of $Y$. In that case we couldn't have drawn the triangle; the sums of squares would not have decomposed in a Pythagorean manner; $R^2$ would not have had the frequently-quoted form $SS_{\text{reg}}/SS_{\text{total}}$ nor be the square of $R$. In this situation, some software (including R) uses a different formula for $R^2$ en total.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X