El coeficiente de determinación puede determinarse a partir de las correlaciones: Consideremos una regresión lineal múltiple con $m$ vectores explicativos y un término de intercepción. Primero definimos los valores de correlación para todas las variables del problema $r_i = \mathbb{Corr}(\mathbf{y},\mathbf{x}_i)$ y $r_{i,j} = \mathbb{Corr}(\mathbf{x}_i,\mathbf{x}_j)$ . Ahora defina el vector de bondad de ajuste y matriz de correlación de diseño respectivamente:
$$\boldsymbol{r}_{\mathbf{y},\mathbf{x}} = \begin{bmatrix} r_1 \\ r_2 \\ \vdots \\ r_m \end{bmatrix} \quad \quad \quad \boldsymbol{r}_{\mathbf{x},\mathbf{x}} = \begin{bmatrix} r_{1,1} & r_{1,2} & \cdots & r_{1,m} \\ r_{2,1} & r_{2,2} & \cdots & r_{2,m} \\ \vdots & \vdots & \ddots & \vdots \\ r_{m,1} & r_{m,2} & \cdots & r_{m,m} \\ \end{bmatrix}.$$
El vector de bondad de ajuste contiene las correlaciones entre el vector respuesta y cada uno de los vectores explicativos. La matriz de correlación del diseño contiene las correlaciones entre cada par de vectores explicativos. (Tenga en cuenta que estos nombres son algo que he inventado, ya que ninguna de las matrices tiene un nombre estándar que yo conozca. El primer vector mide la bondad de ajuste de las regresiones simples sobre cada uno de los vectores explicativos individuales, y por eso uso este nombre). Ahora, con un poco de álgebra lineal se puede demostrar que el coeficiente de determinación para la regresión lineal múltiple viene dado por la siguiente forma cuadrática:
$$R^2 = \boldsymbol{r}_{\mathbf{y},\mathbf{x}}^\text{T} \boldsymbol{r}_{\mathbf{x},\mathbf{x}}^{-1} \boldsymbol{r}_{\mathbf{y},\mathbf{x}}.$$
Esta forma del coeficiente de determinación no es muy conocida por los profesionales de la estadística, pero es un resultado muy útil y ayuda a enmarcar la bondad de ajuste de la regresión lineal múltiple en sus términos más fundamentales. La raíz cuadrada del coeficiente de determinación nos da el coeficiente de correlación múltiple que es una extensión multivariada de la correlación absoluta. En el caso especial de que $m=1$ se obtiene $R^2 = r_1^2$ para que el coeficiente de determinación sea el cuadrado de la correlación entre el vector de respuesta y la (única) variable explicativa.
Como puede ver, esta forma del coeficiente de determinación para la regresión lineal múltiple se enmarca completamente en términos de correlaciones entre los pares de vectores que entran en la regresión. Esto significa que si se dispone de una matriz de correlaciones por pares entre todos los vectores de la regresión múltiple (el vector respuesta y cada uno de los vectores explicativos), se puede determinar directamente el coeficiente de determinación sin ajustar el modelo de regresión. Este resultado se presenta más comúnmente en el análisis multivariante (véase, por ejemplo Mardia, Kent y Bibby 1979 , p. 168).
El coeficiente de determinación no suele ser igual a la suma de los coeficientes individuales: En el caso de que todos los vectores explicativos no estén correlacionados entre sí, se obtiene $\boldsymbol{r}_{\mathbf{x},\mathbf{x}} = \boldsymbol{I}$ lo que significa que la forma cuadrática anterior se reduce a $R^2 = \sum r_i^2$ . Sin embargo, se trata de un caso especial que sólo se da en la práctica en los casos en que las variables explicativas son fijadas por el investigador. Las variables explicativas no suelen estar descorrelacionadas, por lo que el coeficiente de determinación viene determinado por la forma cuadrática anterior.
También es útil observar que el coeficiente de determinación de una regresión lineal múltiple puede estar por encima o por debajo de la suma de los coeficientes de determinación individuales de las correspondientes regresiones lineales simples. Normalmente está por debajo de esta suma (ya que el poder explicativo total suele ser menor que la suma de sus partes), pero a veces está por encima de esta suma.