7 votos

¿Puede calcular $R^2$ de los coeficientes de correlación en la regresión lineal múltiple?

En la regresión lineal simple, $R^2$ equivale a la correlación al cuadrado de una variable dependiente y una independiente. ¿Es esto también cierto para la regresión lineal múltiple?

Por ejemplo, medí el rasgo de apertura para predecir la creatividad en una regresión lineal simple. Si elevo al cuadrado la correlación medida entre ambos, obtengo el coeficiente de determinación.

Luego he medido los rasgos extraversión, apertura e intelecto para predecir la creatividad en una regresión lineal múltiple. ¿Puedo tomar esas correlaciones observadas, elevarlas al cuadrado y sumarlas, y obtener también el coeficiente de determinación para este tipo de regresión?

11voto

Aaron Puntos 36

El coeficiente de determinación puede determinarse a partir de las correlaciones: Consideremos una regresión lineal múltiple con $m$ vectores explicativos y un término de intercepción. Primero definimos los valores de correlación para todas las variables del problema $r_i = \mathbb{Corr}(\mathbf{y},\mathbf{x}_i)$ y $r_{i,j} = \mathbb{Corr}(\mathbf{x}_i,\mathbf{x}_j)$ . Ahora defina el vector de bondad de ajuste y matriz de correlación de diseño respectivamente:

$$\boldsymbol{r}_{\mathbf{y},\mathbf{x}} = \begin{bmatrix} r_1 \\ r_2 \\ \vdots \\ r_m \end{bmatrix} \quad \quad \quad \boldsymbol{r}_{\mathbf{x},\mathbf{x}} = \begin{bmatrix} r_{1,1} & r_{1,2} & \cdots & r_{1,m} \\ r_{2,1} & r_{2,2} & \cdots & r_{2,m} \\ \vdots & \vdots & \ddots & \vdots \\ r_{m,1} & r_{m,2} & \cdots & r_{m,m} \\ \end{bmatrix}.$$

El vector de bondad de ajuste contiene las correlaciones entre el vector respuesta y cada uno de los vectores explicativos. La matriz de correlación del diseño contiene las correlaciones entre cada par de vectores explicativos. (Tenga en cuenta que estos nombres son algo que he inventado, ya que ninguna de las matrices tiene un nombre estándar que yo conozca. El primer vector mide la bondad de ajuste de las regresiones simples sobre cada uno de los vectores explicativos individuales, y por eso uso este nombre). Ahora, con un poco de álgebra lineal se puede demostrar que el coeficiente de determinación para la regresión lineal múltiple viene dado por la siguiente forma cuadrática:

$$R^2 = \boldsymbol{r}_{\mathbf{y},\mathbf{x}}^\text{T} \boldsymbol{r}_{\mathbf{x},\mathbf{x}}^{-1} \boldsymbol{r}_{\mathbf{y},\mathbf{x}}.$$

Esta forma del coeficiente de determinación no es muy conocida por los profesionales de la estadística, pero es un resultado muy útil y ayuda a enmarcar la bondad de ajuste de la regresión lineal múltiple en sus términos más fundamentales. La raíz cuadrada del coeficiente de determinación nos da el coeficiente de correlación múltiple que es una extensión multivariada de la correlación absoluta. En el caso especial de que $m=1$ se obtiene $R^2 = r_1^2$ para que el coeficiente de determinación sea el cuadrado de la correlación entre el vector de respuesta y la (única) variable explicativa.

Como puede ver, esta forma del coeficiente de determinación para la regresión lineal múltiple se enmarca completamente en términos de correlaciones entre los pares de vectores que entran en la regresión. Esto significa que si se dispone de una matriz de correlaciones por pares entre todos los vectores de la regresión múltiple (el vector respuesta y cada uno de los vectores explicativos), se puede determinar directamente el coeficiente de determinación sin ajustar el modelo de regresión. Este resultado se presenta más comúnmente en el análisis multivariante (véase, por ejemplo Mardia, Kent y Bibby 1979 , p. 168).


El coeficiente de determinación no suele ser igual a la suma de los coeficientes individuales: En el caso de que todos los vectores explicativos no estén correlacionados entre sí, se obtiene $\boldsymbol{r}_{\mathbf{x},\mathbf{x}} = \boldsymbol{I}$ lo que significa que la forma cuadrática anterior se reduce a $R^2 = \sum r_i^2$ . Sin embargo, se trata de un caso especial que sólo se da en la práctica en los casos en que las variables explicativas son fijadas por el investigador. Las variables explicativas no suelen estar descorrelacionadas, por lo que el coeficiente de determinación viene determinado por la forma cuadrática anterior.

También es útil observar que el coeficiente de determinación de una regresión lineal múltiple puede estar por encima o por debajo de la suma de los coeficientes de determinación individuales de las correspondientes regresiones lineales simples. Normalmente está por debajo de esta suma (ya que el poder explicativo total suele ser menor que la suma de sus partes), pero a veces está por encima de esta suma.

-1voto

5xum Puntos 158

Si tienes tanto los errores absolutos de la regresión como los valores de la variable dependiente, puedes calcular $R^2$ como:

$$1 - ({\rm absolute\ error\ variance} / {\rm dependent\ variable\ variance})$$

Usando lo anterior, el número de variables independientes o sus correlaciones no es necesario, lo que es bastante útil para la regresión lineal múltiple.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X