Editado con material añadido en respuesta a los comentarios de @whuber
Esta es una respuesta basada en la teoría de la probabilidad, no en estimaciones estadísticas, por lo que su kilometraje puede variar.
Si las variables aleatorias $X$ y $Y$ tienen un coeficiente de correlación $\rho$ entonces la estimación lineal del error mínimo cuadrático de $Y$ dado el valor de $X$ es $$\hat{Y} = \mu_Y + \rho\frac{\sigma_Y}{\sigma_X}(X - \mu_X),$$ y de forma similar, la estimación del error lineal mínimo cuadrático de $X$ dado el valor de $Y$ es $$\hat{X} = \mu_X + \rho\frac{\sigma_X}{\sigma_Y}(Y - \mu_Y).$$ Tenga en cuenta que $\hat{Y}$ y $\hat{X}$ son variables aleatorias que son funciones lineales de $X$ y $Y$ respectivamente. Sus medias son $$\begin{align*} \mu_{\hat{Y}} &=E[\hat{Y}] = E\left[\mu_Y+\rho\frac{\sigma_Y}{\sigma_X}(X - \mu_X)\right] = \mu_Y+ \rho\frac{\sigma_Y}{\sigma_X}E[X - \mu_X] = \mu_Y\\ \mu_{\hat{X}} &= E[\hat{X}] = E\left[\mu_X+\rho\frac{\sigma_X}{\sigma_Y}(Y - \mu_Y)\right] = \mu_Y+ \rho\frac{\sigma_X}{\sigma_Y}E[Y - \mu_Y] = \mu_X \end{align*}$$ mientras que las desviaciones son $$\begin{align*} \sigma_{\hat{Y}}^2 &= E[(\hat{Y} - \mu_{\hat{Y}})^2] = \frac{\rho^2\sigma_Y^2}{\sigma_X^2}E[(X-\mu_X)^2] = \rho^2\sigma_Y^2\\ \sigma_{\hat{X}}^2 &= E[(\hat{X} - \mu_{\hat{X}})^2] = \frac{\rho^2\sigma_X^2}{\sigma_Y^2}E[(Y-\mu_Y)^2] = \rho^2\sigma_X^2 \end{align*}$$ Por último, las varianzas de los residual errores $Y - \hat{Y}$ y $X - \hat{X}$ son $\sigma_Y^2(1-\rho^2)$ y $\sigma_X^2(1-\rho^2)$ respectivamente. Se puede pensar en estos resultados como siguientes.
Si utilizamos la media $\mu_Y$ como estimación para $Y$ el error medio cuadrático es $\sigma_Y^2$ pero si conocemos el valor de $X$ y utilizar $\mu_Y + \rho\frac{\sigma_Y}{\sigma_X}(X - \mu_X)$ como la estimación de $Y$ el error medio cuadrático se reduce a $\sigma_Y^2(1-\rho^2)$ .
Si utilizamos la media $\mu_X$ como estimación para $X$ el error medio cuadrático es $\sigma_X^2$ pero si conocemos el valor de $Y$ y utilizar $\mu_X + \rho\frac{\sigma_X}{\sigma_Y}(Y - \mu_Y)$ como la estimación de $X$ el error medio cuadrático se reduce a $\sigma_X^2(1-\rho^2)$ .
En ambos casos, el error cuadrático medio se reduce por el misma fracción $(1-\rho^2)$ .
En términos de gráficos de dispersión (para variables aleatorias discretas o datos) en un plano con ejes de coordenadas $x$ y $y$ , tenemos dos líneas rectas $$ \begin{align*} y &= \mu_Y + \rho\frac{\sigma_Y}{\sigma_X}(x - \mu_X),\\ x &= \mu_X + \rho\frac{\sigma_X}{\sigma_Y}(y - \mu_Y), \end{align*} $$ de diferentes pendientes $\rho\sigma_Y/\sigma_X$ y $\sigma_Y/\rho\sigma_X$ pasando por el punto medio $(\mu_X,\mu_Y)$ . La razón de las diferentes pendientes es que estamos eligiendo la pendiente para minimizar la suma de los cuadrados de los vertical distancias de los puntos a la línea en el primer caso, y minimizar la suma de los cuadrados de las distancias horizontales de los puntos de la línea en el segundo caso. Estas sumas de distancias al cuadrado son $\sigma_Y^2(1-\rho^2)$ y $\sigma_X^2(1-\rho^2)$ respectivamente.
Como ejemplo sencillo, supongamos que $(X,Y)$ asume los valores $(0,0)$ , $(0,1)$ y $(1,1)$ con igual probabilidad $\frac{1}{3}$ cada uno o tenemos un gráfico de dispersión con estos tres puntos. Uno puede moler a través de los cálculos si se desea, pero debería ser intuitivamente obvio que debemos estimar $Y$ como $\frac{1}{2}$ si $X = 0$ y como $1$ si $X = 1$ mientras que deberíamos estimar $X$ como $0$ si $Y = 0$ y como $\frac{1}{2}$ si $Y = 1$ es decir, las dos líneas tienen diferentes pendientes $\frac{1}{2}$ y $2$ (de hecho, pendientes recíprocas ya que $\sigma_X^2 = \sigma_Y^2 = \frac{2}{9}$ en este ejemplo). Esto es lo que da la teoría la teoría de la probabilidad. Pero si se tratan los tres puntos como una pequeña muestra de de una población desconocida y se utiliza estimaciones de la población medias, varianzas y coeficiente de correlación, entonces sus resultados pueden ser diferentes.
2 votos
$R^2$ puede expresarse como el cuadrado de la correlación entre los valores observados y los ajustados en un modelo de regresión. La correlación es una operación simétrica (por ejemplo ${\rm cor}(X,Y) = {\rm cor}(Y,X)$ para dos variables aleatorias $X,Y$ ) así que, no, el orden no importa.
0 votos
Entonces, ¿por qué el ejemplo anterior suena tan mal?
2 votos
Tal vez estas observaciones ayuden un poco: fíjese que es el variación en algo que se está "explicando" aquí, no el algo en sí. "Explicado" es una elección de palabras especialmente pobre, en mi opinión. "Explicado" o "acomodado por el modelo ajustado" se acercan más a lo que ocurre, pero son más largas y complicadas de decir o escribir.
6 votos
Por cierto, JackOfAll, ¿sabes cómo funciona el proceso de subir los votos y aceptar las respuestas en este sitio? Es un aspecto valioso para crear grandes preguntas y respuestas, así que por favor, dedica unos momentos a leer nuestro PREGUNTAS FRECUENTES y actuar en consecuencia con las preguntas que ya ha formulado. En particular, cualquier respuesta útil, reflexiva y bien elaborada, aunque no sea la mejor del grupo o sólo responda parcialmente a su pregunta, merece su voto en reconocimiento al esfuerzo por parte del encuestado.