148 votos

¿Cuál es la diferencia entre la regresión lineal de y con x y la de x con y?

El coeficiente de correlación de Pearson de x e y es el mismo, tanto si se calcula pearson(x, y) como pearson(y, x). Esto sugiere que hacer una regresión lineal de y dado x o de x dado y debería ser lo mismo, pero no creo que sea el caso.

¿Puede alguien aclarar cuándo la relación no es simétrica y cómo se relaciona con el coeficiente de correlación de Pearson (que siempre considero que resume la línea de mejor ajuste)?

2 votos

Toda matriz de correlación será simétrica porque $\mathrm{cov}\left(x,y\right)=\mathrm{cov}\left(y,x\right)$ . Te animo a que hagas las cuentas para ver que esto es cierto. Si conoce la relación entre $x$ y $y$ (o cualesquiera que sean las variables de interés) no es simétrica a priori Si no se puede hacer nada, puede ser beneficioso para usted buscar otros métodos de análisis.

15 votos

Se han hecho observaciones interesantes sobre una cuestión relacionada, Efecto de cambiar la respuesta y la variable explicativa en la regresión lineal simple .

214voto

Sean Hanley Puntos 2428

La mejor manera de pensar en esto es imaginar un gráfico de dispersión de puntos con $y$ en el eje vertical y $x$ representado por el eje horizontal. Teniendo en cuenta este marco, se ve una nube de puntos, que puede ser vagamente circular, o puede ser alargada en una elipse. Lo que se intenta hacer en la regresión es encontrar lo que podría llamarse la "línea de mejor ajuste". Sin embargo, aunque esto parece sencillo, tenemos que averiguar qué entendemos por "mejor", y eso significa que debemos definir qué sería para una línea ser buena, o para una línea ser mejor que otra, etc. En concreto, debemos estipular un función de pérdida . Una función de pérdida nos da una forma de decir lo "malo" que es algo, y así, cuando la minimizamos, hacemos que nuestra línea sea lo más "buena" posible, o encontramos la "mejor" línea.

Tradicionalmente, cuando realizamos un análisis de regresión, encontramos estimaciones de la pendiente y el intercepto para minimizar la suma de errores al cuadrado . Se definen de la siguiente manera:

$$ SSE=\sum_{i=1}^N(y_i-(\hat\beta_0+\hat\beta_1x_i))^2 $$

En términos de nuestro gráfico de dispersión, esto significa que estamos minimizando la (suma del cuadrado) distancias verticales entre los puntos de datos observados y la línea.

enter image description here

Por otro lado, es perfectamente razonable retroceder $x$ en $y$ pero en ese caso, pondríamos $x$ en el eje vertical, y así sucesivamente. Si mantuviéramos nuestro gráfico como está (con $x$ en el eje horizontal), regresando $x$ en $y$ (de nuevo, utilizando una versión ligeramente adaptada de la ecuación anterior con $x$ y $y$ conmutada) significa que estaríamos minimizando la suma de las distancias horizontales entre los puntos de datos observados y la línea. Esto suena muy parecido, pero no es exactamente lo mismo. (La forma de reconocerlo es hacerlo de las dos maneras, y luego convertir algebraicamente un conjunto de estimaciones de parámetros en los términos del otro. Comparando el primer modelo con la versión reordenada del segundo modelo, resulta fácil ver que no son lo mismo).

enter image description here

Obsérvese que ninguna de las dos formas produciría la misma línea que dibujaríamos intuitivamente si alguien nos diera un trozo de papel cuadriculado con puntos trazados en él. En ese caso, dibujaríamos una línea recta por el centro, pero al minimizar la distancia vertical se obtiene una línea que es ligeramente más plano (es decir, con una menor pendiente), mientras que al minimizar la distancia horizontal se obtiene una línea que es ligeramente más pronunciado .

Una correlación es simétrica; $x$ está tan correlacionado con $y$ como $y$ es con $x$ . Sin embargo, la correlación producto-momento de Pearson puede entenderse en un contexto de regresión. El coeficiente de correlación, $r$ es la pendiente de la línea de regresión cuando ambas variables han sido estandarizado primero. Es decir, primero se resta la media de cada observación y luego se dividen las diferencias por la desviación estándar. La nube de puntos de datos estará ahora centrada en el origen, y la pendiente será la misma si se hace una regresión de $y$ en $x$ o $x$ en $y$ (pero ten en cuenta el comentario de @DilipSarwate más abajo).

enter image description here

Ahora bien, ¿por qué importa esto? Usando nuestra función de pérdida tradicional, estamos diciendo que todo el error está en sólo un de las variables (a saber, $y$ ). Es decir, estamos diciendo que $x$ se mide sin error y constituye el conjunto de valores que nos interesa, pero que $y$ tiene error de muestreo . Esto es muy diferente a decir lo contrario. Esto fue importante en un interesante episodio histórico: A finales de los años 70 y principios de los 80 en EE.UU., se argumentó que existía discriminación contra las mujeres en el trabajo, y esto se respaldó con análisis de regresión que mostraban que las mujeres con iguales antecedentes (por ejemplo, calificaciones, experiencia, etc.) cobraban, en promedio, menos que los hombres. Los críticos (o simplemente las personas más minuciosas) razonaron que si esto era cierto, las mujeres que cobraban lo mismo que los hombres debían estar más cualificadas, pero cuando se comprobó esto, se encontró que aunque los resultados eran "significativos" cuando se evaluaban de una manera, no eran "significativos" cuando se comprobaban de la otra, lo que puso a todos los implicados en un aprieto. Véase aquí para un famoso periódico que trató de aclarar la cuestión.


(Actualizado mucho más tarde) Aquí hay otra forma de pensar en esto que aborda el tema a través de las fórmulas en lugar de visualmente:

La fórmula de la pendiente de una línea de regresión simple es una consecuencia de la función de pérdida que se ha adoptado. Si se utiliza la función estándar Mínimos cuadrados ordinarios (ya se ha dicho), se puede derivar la fórmula de la pendiente que se ve en todos los libros de texto de introducción. Esta fórmula se puede presentar de varias formas; una de ellas la llamo fórmula "intuitiva" para la pendiente. Considere esta forma tanto para la situación en la que está haciendo una regresión $y$ en $x$ y donde está retrocediendo $x$ en $y$ : $$ \overbrace{\hat\beta_1=\frac{\text{Cov}(x,y)}{\text{Var}(x)}}^{y\text{ on } x}~~~~~~\overbrace{\hat\beta_1=\frac{\text{Cov}(y,x)}{\text{Var}(y)}}^{x\text{ on }y} $$ Ahora, espero que sea obvio que estos no serían los mismos a menos que $\text{Var}(x)$ es igual a $\text{Var}(y)$ . Si las desviaciones son iguales (por ejemplo, porque usted estandarizó las variables primero), entonces también lo son las desviaciones estándar, y por lo tanto las varianzas también serían iguales $\text{SD}(x)\text{SD}(y)$ . En este caso, $\hat\beta_1$ sería igual a la de Pearson $r$ que es la misma en ambos sentidos en virtud de el principio de conmutatividad : $$ \overbrace{r=\frac{\text{Cov}(x,y)}{\text{SD}(x)\text{SD}(y)}}^{\text{correlating }x\text{ with }y}~~~~~~~\overbrace{r=\frac{\text{Cov}(y,x)}{\text{SD}(y)\text{SD}(x)}}^{\text{correlating }y\text{ with }x} $$

5 votos

+1 por la mención a la minimización de la función de pérdida. Las alternativas a las distancias verticales u horizontales incluyen el uso de la distancia perpendicular a la línea o el área del rectángulo, cada uno de los cuales produce diferentes líneas de regresión.

10 votos

No creo que la afirmación "la pendiente sería la misma tanto si se hace una regresión $y$ en $x$ o $x$ en $y$ ." es correcto si la convención es trazar $x$ en el eje horizontal y $y$ en el eje vertical. En este caso, las pendientes son recíprocos de cada uno. Si seguimos la convención de la variable independiente en el eje horizontal y la variable dependiente en el eje vertical, entonces sí, la pendiente es la misma en ambos sentidos. Pero con esta convención, la explicación de las distancias verticales frente a las horizontales no se aplica; es siempre la distancia vertical de los puntos a la línea.

7 votos

@DilipSarwate, lo que dices es cierto. Mi intención al utilizar los términos "vertical" & "horizontal" es hacer visualmente evidente la idea de que el error se entiende como error de muestreo en $y$ o error de muestreo en $x$ . ¿Debemos trazar $x$ en el eje vertical y regrese $x$ en $y$ el mínimo de distancias será vertical, pero el error seguirá existiendo un error de muestreo en $x$ . Puede que mi respuesta no sea lo suficientemente clara; puede que la edite, si se me ocurre una forma mejor.

15voto

Peter Puntos 1

Voy a ilustrar la respuesta con algunos R código y salida.

En primer lugar, construimos una distribución normal aleatoria, y , con una media de 5 y una DE de 1:

y <- rnorm(1000, mean=5, sd=1)

A continuación, creo a propósito una segunda distribución normal aleatoria, x que es simplemente 5 veces el valor de y para cada y :

x <- y*5

Por diseño, tenemos una perfecta correlación de x y y :

cor(x,y)
[1] 1
cor(y,x)
[1] 1

Sin embargo, cuando hacemos una regresión, buscamos una función que relacione x y y por lo que los resultados de los coeficientes de regresión dependen de la que utilicemos como variable dependiente y de la que utilicemos como variable independiente. En este caso, no ajustamos un intercepto porque hicimos x en función de y sin variación aleatoria:

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5  

Así que las regresiones nos dicen que y=0.2x y que x=5y que, por supuesto, son equivalentes. El coeficiente de correlación simplemente nos muestra que hay una coincidencia exacta en los niveles de cambio de unidad entre x y y por lo que (por ejemplo) un aumento de 1 unidad en y siempre produce un aumento de 0,2 unidades en x .

9voto

dicenice Puntos 11

En cuestiones como ésta es fácil quedarse atrapado en las cuestiones técnicas, así que me gustaría centrarme específicamente en la pregunta del título del hilo que plantea: ¿Cuál es la diferencia entre la regresión lineal de y con x y la de x con y?

Consideremos por un momento un modelo econométrico (simplificado) de teoría del capital humano (el enlace lleva a un artículo del Premio Nobel Gary Becker). Digamos que especificamos un modelo de la siguiente forma: \begin {Ecuación} \text {salarios} = b_{0} + b_{1}~ \text {años de educación} + \text {error} \end {Ecuación} Este modelo puede interpretarse como una relación causal entre los salarios y la educación. Es importante que la causalidad en este contexto signifique que la dirección de la causalidad va de la educación a los salarios y no al revés. Esto está implícito en la forma en que se ha formulado el modelo; la variable dependiente es el salario y la variable independiente son los años de educación.

Ahora, si hacemos una inversión de la ecuación econométrica (es decir, cambiamos y en x por x en y), de manera que el modelo se convierte en \begin {Ecuación} \text {años de educación} = b_{0} + b_{1}~ \text {salarios} + \text {error} \end {ecuación} entonces está implícito en la formulación de la ecuación econométrica que estamos diciendo que la dirección de la causalidad va de los salarios a la educación.

Seguro que se te ocurren más ejemplos como éste (también fuera del ámbito de la economía), pero como puedes ver, la interpretación del modelo puede cambiar bastante cuando pasamos de hacer una regresión de y sobre x a otra de x sobre y.

Así que, para responder a la pregunta: ¿Cuál es la diferencia entre la regresión lineal de y con x y la de x con y? podemos decir que el interpretación de la ecuación de regresión cambia cuando hacemos una regresión de x sobre y en lugar de y sobre x. No debemos pasar por alto este punto porque un modelo que tiene una buena interpretación puede convertirse rápidamente en uno que tiene poco o ningún sentido.

5voto

Prekop Puntos 21

Hay un fenómeno muy interesante sobre este tema. Después de intercambiar x e y, aunque el coeficiente de regresión cambia, pero el estadístico t/F y el nivel de significación del coeficiente no cambian. Esto también es cierto incluso en la regresión múltiple, donde intercambiamos y con una de las variables independientes.

Se debe a una delicada relación entre el estadístico F y el coeficiente de correlación (parcial). Esa relación toca realmente el núcleo de la teoría de los modelos lineales.Hay más detalles sobre esta conclusión en mi cuaderno: Por qué el intercambio de y y x no tiene efecto en p

1 votos

Puede que el siguiente hilo le resulte interesante/concertante: Intercambio de X e Y en una regresión que contiene un predictor de agrupación .

6 votos

El artículo "Por qué el intercambio de y y x no tiene efecto sobre p" ya no está aquí. ¿Lo volverás a añadir?

-8voto

La idea básica de la regresión puede ser la de "causa y efecto" o "independiente y dependiente". La práctica normal de colocar la variable independiente en el eje X y la variable dependiente en el eje Y, se representa por Y= mX+c. Si la pendiente debe llamarse m (X en Y) o (Y en X) y la regresión como: (X sobre Y) o (Y sobre X). Se maneja de ambas maneras, lo cual no es bueno y necesita ser aclarado. Los modelizadores utilizan con frecuencia gráficos de dispersión para juzgar si las series simuladas coinciden con las observadas, y el uso de la línea de regresión es inevitable. Por esta necesidad, la pregunta muda planteada en el hilo se mantiene. O simplemente, por favor, aclare cómo llamar al análisis de regresión normal: ¿X sobre Y; o Y sobre X?, yendo más allá de la respuesta causal. No es una respuesta al hilo principal; sino una pregunta paralela.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X