La mejor manera de pensar en esto es imaginar un gráfico de dispersión de puntos con $y$ en el eje vertical y $x$ representado por el eje horizontal. Dado este marco, ves una nube de puntos, que puede ser vagamente circular, o puede estar alargada en una elipse. Lo que estás intentando hacer en la regresión es encontrar lo que podría llamarse la 'línea de mejor ajuste'. Sin embargo, aunque esto parece sencillo, necesitamos averiguar qué queremos decir con 'mejor', y eso significa que debemos definir qué sería una buena línea, o cuándo una línea es mejor que otra, etc. Específicamente, debemos estipular una función de pérdida. Una función de pérdida nos brinda una forma de decir qué tan 'malo' es algo, y así, cuando minimizamos eso, hacemos que nuestra línea sea tan 'buena' como sea posible, o encontramos la línea 'mejor'.
Tradicionalmente, cuando realizamos un análisis de regresión, encontramos estimaciones de la pendiente e intercepto para minimizar la suma de errores al cuadrado. Estos se definen de la siguiente manera:
$$ SSE=\sum_{i=1}^N(y_i-(\hat\beta_0+\hat\beta_1x_i))^2 $$
En términos de nuestro gráfico de dispersión, esto significa que estamos minimizando las distancias verticales (sumadas al cuadrado) entre los datos observados y la línea.
Por otro lado, es perfectamente razonable regresar $x$ contra $y$, pero en ese caso, pondríamos $x$ en el eje vertical, y así sucesivamente. Si mantenemos nuestro gráfico tal como está (con $x$ en el eje horizontal), regresar $x$ contra $y$ (nuevamente, usando una versión ligeramente adaptada de la ecuación anterior con $x$ e $y$ intercambiados) significa que estaríamos minimizando la suma de las distancias horizontales entre los datos observados y la línea. Esto suena muy similar, pero no es exactamente lo mismo. (La forma de reconocer esto es hacerlo de ambas maneras, y luego convertir algebraicamente un conjunto de estimaciones de parámetros en los términos de la otra. Comparando el primer modelo con la versión reorganizada del segundo modelo, es fácil ver que no son iguales.)
Nota que de ninguna manera produciría la misma línea que intuitivamente trazaríamos si alguien nos entregara un trozo de papel cuadriculado con puntos plotados en él. En ese caso, trazaríamos una línea recta a través del centro, pero minimizar la distancia vertical da como resultado una línea ligeramente más plana (es decir, con una pendiente más suave), mientras que minimizar la distancia horizontal da como resultado una línea ligeramente más empinada.
Una correlación es simétrica; $x$ está tan correlacionado con $y$ como $y$ está con $x$. El coeficiente de correlación producto-momento de Pearson puede ser entendido dentro de un contexto de regresión, sin embargo. El coeficiente de correlación, $r$, es la pendiente de la línea de regresión cuando ambas variables han sido estandarizadas primero. Es decir, primero restaste la media de cada observación, y luego dividiste las diferencias por la desviación estándar. La nube de puntos de datos ahora estará centrada en el origen, y la pendiente sería la misma tanto si regresas $y$ contra $x$, como si regresas $x$ contra $y
Ahora, ¿por qué esto es importante? Usando nuestra función de pérdida tradicional, estamos diciendo que todo el error está en solo una de las variables (es decir, $y$). Es decir, estamos diciendo que $x$ se mide sin error y constituye el conjunto de valores que nos importan, pero que $y$ tiene error de muestreo. Esto es muy diferente a decir lo contrario. Esto fue importante en un interesante episodio histórico: A finales de los años 70 y principios de los 80 en Estados Unidos, se argumentó que había discriminación contra las mujeres en el lugar de trabajo, y esto se respaldó con análisis de regresión que mostraban que las mujeres con antecedentes iguales (por ejemplo, calificaciones, experiencia, etc.) ganaban, en promedio, menos que los hombres. Los críticos (o simplemente personas que eran más minuciosas) razonaron que si esto fuera cierto, las mujeres que ganaran lo mismo que los hombres tendrían que ser más calificadas, pero cuando se verificó esto, se descubrió que aunque los resultados eran 'significativos' cuando se evaluaban de una manera, no lo eran 'significativos' cuando se verificaban de la otra manera, lo que desconcertó a todos los involucrados. Mira aquí un famoso artículo que intentó aclarar el tema.
(Actualizado mucho después) Aquí hay otra forma de pensar en esto que aborda el tema a través de las fórmulas en lugar de visualmente:
La fórmula para la pendiente de una línea de regresión simple es una consecuencia de la función de pérdida que se ha adoptado. Si estás utilizando la función de pérdida estándar de Mínimos cuadrados ordinarios (mencionada anteriormente), puedes derivar la fórmula para la pendiente que ves en todos los libros de introducción. Esta fórmula puede presentarse en varias formas; una de ellas la llamo la fórmula 'intuitiva' para la pendiente. Considera esta forma tanto para la situación en la que estás regresando $y$ sobre $x$, como para la situación en la que estás regresando $x$ sobre $y$:
$$ \overbrace{\hat\beta_1=\frac{\text{Cov}(x,y)}{\text{Var}(x)}}^{y\text{ en } x}~~~~~~\overbrace{\hat\beta_1=\frac{\text{Cov}(y,x)}{\text{Var}(y)}}^{x\text{ en }y} $$
Ahora, espero que sea obvio que estos no serían iguales a menos que $\text{Var}(x)$ sea igual a $\text{Var}(y)$. Si las varianzas son iguales (por ejemplo, porque estandarizaste primero las variables), entonces también lo son las desviaciones estándar, y por lo tanto las varianzas también serían ambas iguales a $\text{SD}(x)\text{SD}(y)$. En este caso, $\hat\beta_1$ sería igual a $r$ de Pearson, que es lo mismo en ambos casos por virtud de el principio de conmutatividad:
$$ \overbrace{r=\frac{\text{Cov}(x,y)}{\text{SD}(x)\text{SD}(y)}}^{\text{correlacionar} x \text{con} y}~~~~~~~\overbrace{r=\frac{\text{Cov}(y,x)}{\text{SD}(y)\text{SD}(x)}}^{\text{correlacionar} y \text{con} x} $$
2 votos
Cada matriz de correlación será simétrica porque $ \mathrm{cov}\left(x, y\right) =\mathrm{cov}\left(y, x\right)$. Te animo a trabajar en las matemáticas para ver que esto es realmente cierto. Si sabes que la relación entre $x$ e $y$ (o cualesquiera que sean las variables de interés) no es simétrica a priori, podría beneficiarte investigar otros métodos de análisis.
15 votos
Se hicieron puntos interesantes sobre una pregunta relacionada, Efecto de cambiar la variable de respuesta y la variable explicativa en la regresión lineal simple.
0 votos
Tldr: La regresión de y en x trata de minimizar la distancia vertical entre cada punto y la línea. Mientras que para x en y se hace para la distancia horizontal. (Cuadrado de la distancia en realidad)