La mejor manera de pensar en esto es imaginar un gráfico de dispersión de puntos con $y$ en el eje vertical y $x$ representado por el eje horizontal. Teniendo en cuenta este marco, se ve una nube de puntos, que puede ser vagamente circular, o puede ser alargada en una elipse. Lo que se intenta hacer en la regresión es encontrar lo que podría llamarse la "línea de mejor ajuste". Sin embargo, aunque esto parece sencillo, tenemos que averiguar qué entendemos por "mejor", y eso significa que debemos definir qué sería para una línea ser buena, o para una línea ser mejor que otra, etc. En concreto, debemos estipular un función de pérdida . Una función de pérdida nos da una forma de decir lo "malo" que es algo, y así, cuando la minimizamos, hacemos que nuestra línea sea lo más "buena" posible, o encontramos la "mejor" línea.
Tradicionalmente, cuando realizamos un análisis de regresión, encontramos estimaciones de la pendiente y el intercepto para minimizar la suma de errores al cuadrado . Se definen de la siguiente manera:
$$ SSE=\sum_{i=1}^N(y_i-(\hat\beta_0+\hat\beta_1x_i))^2 $$
En términos de nuestro gráfico de dispersión, esto significa que estamos minimizando la (suma del cuadrado) distancias verticales entre los puntos de datos observados y la línea.
Por otro lado, es perfectamente razonable retroceder $x$ en $y$ pero en ese caso, pondríamos $x$ en el eje vertical, y así sucesivamente. Si mantuviéramos nuestro gráfico como está (con $x$ en el eje horizontal), regresando $x$ en $y$ (de nuevo, utilizando una versión ligeramente adaptada de la ecuación anterior con $x$ y $y$ conmutada) significa que estaríamos minimizando la suma de las distancias horizontales entre los puntos de datos observados y la línea. Esto suena muy parecido, pero no es exactamente lo mismo. (La forma de reconocerlo es hacerlo de las dos maneras, y luego convertir algebraicamente un conjunto de estimaciones de parámetros en los términos del otro. Comparando el primer modelo con la versión reordenada del segundo modelo, resulta fácil ver que no son lo mismo).
Obsérvese que ninguna de las dos formas produciría la misma línea que dibujaríamos intuitivamente si alguien nos diera un trozo de papel cuadriculado con puntos trazados en él. En ese caso, dibujaríamos una línea recta por el centro, pero al minimizar la distancia vertical se obtiene una línea que es ligeramente más plano (es decir, con una menor pendiente), mientras que al minimizar la distancia horizontal se obtiene una línea que es ligeramente más pronunciado .
Una correlación es simétrica; $x$ está tan correlacionado con $y$ como $y$ es con $x$ . Sin embargo, la correlación producto-momento de Pearson puede entenderse en un contexto de regresión. El coeficiente de correlación, $r$ es la pendiente de la línea de regresión cuando ambas variables han sido estandarizado primero. Es decir, primero se resta la media de cada observación y luego se dividen las diferencias por la desviación estándar. La nube de puntos de datos estará ahora centrada en el origen, y la pendiente será la misma si se hace una regresión de $y$ en $x$ o $x$ en $y$ (pero ten en cuenta el comentario de @DilipSarwate más abajo).
Ahora bien, ¿por qué importa esto? Usando nuestra función de pérdida tradicional, estamos diciendo que todo el error está en sólo un de las variables (a saber, $y$ ). Es decir, estamos diciendo que $x$ se mide sin error y constituye el conjunto de valores que nos interesa, pero que $y$ tiene error de muestreo . Esto es muy diferente a decir lo contrario. Esto fue importante en un interesante episodio histórico: A finales de los años 70 y principios de los 80 en EE.UU., se argumentó que existía discriminación contra las mujeres en el trabajo, y esto se respaldó con análisis de regresión que mostraban que las mujeres con iguales antecedentes (por ejemplo, calificaciones, experiencia, etc.) cobraban, en promedio, menos que los hombres. Los críticos (o simplemente las personas más minuciosas) razonaron que si esto era cierto, las mujeres que cobraban lo mismo que los hombres debían estar más cualificadas, pero cuando se comprobó esto, se encontró que aunque los resultados eran "significativos" cuando se evaluaban de una manera, no eran "significativos" cuando se comprobaban de la otra, lo que puso a todos los implicados en un aprieto. Véase aquí para un famoso periódico que trató de aclarar la cuestión.
(Actualizado mucho más tarde) Aquí hay otra forma de pensar en esto que aborda el tema a través de las fórmulas en lugar de visualmente:
La fórmula de la pendiente de una línea de regresión simple es una consecuencia de la función de pérdida que se ha adoptado. Si se utiliza la función estándar Mínimos cuadrados ordinarios (ya se ha dicho), se puede derivar la fórmula de la pendiente que se ve en todos los libros de texto de introducción. Esta fórmula se puede presentar de varias formas; una de ellas la llamo fórmula "intuitiva" para la pendiente. Considere esta forma tanto para la situación en la que está haciendo una regresión $y$ en $x$ y donde está retrocediendo $x$ en $y$ : $$ \overbrace{\hat\beta_1=\frac{\text{Cov}(x,y)}{\text{Var}(x)}}^{y\text{ on } x}~~~~~~\overbrace{\hat\beta_1=\frac{\text{Cov}(y,x)}{\text{Var}(y)}}^{x\text{ on }y} $$ Ahora, espero que sea obvio que estos no serían los mismos a menos que $\text{Var}(x)$ es igual a $\text{Var}(y)$ . Si las desviaciones son iguales (por ejemplo, porque usted estandarizó las variables primero), entonces también lo son las desviaciones estándar, y por lo tanto las varianzas también serían iguales $\text{SD}(x)\text{SD}(y)$ . En este caso, $\hat\beta_1$ sería igual a la de Pearson $r$ que es la misma en ambos sentidos en virtud de el principio de conmutatividad : $$ \overbrace{r=\frac{\text{Cov}(x,y)}{\text{SD}(x)\text{SD}(y)}}^{\text{correlating }x\text{ with }y}~~~~~~~\overbrace{r=\frac{\text{Cov}(y,x)}{\text{SD}(y)\text{SD}(x)}}^{\text{correlating }y\text{ with }x} $$
2 votos
Toda matriz de correlación será simétrica porque $\mathrm{cov}\left(x,y\right)=\mathrm{cov}\left(y,x\right)$ . Te animo a que hagas las cuentas para ver que esto es cierto. Si conoce la relación entre $x$ y $y$ (o cualesquiera que sean las variables de interés) no es simétrica a priori Si no se puede hacer nada, puede ser beneficioso para usted buscar otros métodos de análisis.
15 votos
Se han hecho observaciones interesantes sobre una cuestión relacionada, Efecto de cambiar la respuesta y la variable explicativa en la regresión lineal simple .