148 votos

¿Cuál es la diferencia entre la regresión lineal en y con x y en x con y?

El coeficiente de correlación de Pearson de x e y es el mismo, ya sea que calcules pearson(x, y) o pearson(y, x). Esto sugiere que hacer una regresión lineal de y dado x o x dado y debería ser lo mismo, pero no creo que sea el caso.

¿Alguien puede aclarar cuándo la relación no es simétrica, y cómo se relaciona eso con el coeficiente de correlación de Pearson (que siempre pienso como un resumen de la línea de mejor ajuste)?

2 votos

Cada matriz de correlación será simétrica porque $ \mathrm{cov}\left(x, y\right) =\mathrm{cov}\left(y, x\right)$. Te animo a trabajar en las matemáticas para ver que esto es realmente cierto. Si sabes que la relación entre $x$ e $y$ (o cualesquiera que sean las variables de interés) no es simétrica a priori, podría beneficiarte investigar otros métodos de análisis.

15 votos

Se hicieron puntos interesantes sobre una pregunta relacionada, Efecto de cambiar la variable de respuesta y la variable explicativa en la regresión lineal simple.

0 votos

Tldr: La regresión de y en x trata de minimizar la distancia vertical entre cada punto y la línea. Mientras que para x en y se hace para la distancia horizontal. (Cuadrado de la distancia en realidad)

214voto

Sean Hanley Puntos 2428

La mejor manera de pensar en esto es imaginar un gráfico de dispersión de puntos con $y$ en el eje vertical y $x$ representado por el eje horizontal. Dado este marco, ves una nube de puntos, que puede ser vagamente circular, o puede estar alargada en una elipse. Lo que estás intentando hacer en la regresión es encontrar lo que podría llamarse la 'línea de mejor ajuste'. Sin embargo, aunque esto parece sencillo, necesitamos averiguar qué queremos decir con 'mejor', y eso significa que debemos definir qué sería una buena línea, o cuándo una línea es mejor que otra, etc. Específicamente, debemos estipular una función de pérdida. Una función de pérdida nos brinda una forma de decir qué tan 'malo' es algo, y así, cuando minimizamos eso, hacemos que nuestra línea sea tan 'buena' como sea posible, o encontramos la línea 'mejor'.

Tradicionalmente, cuando realizamos un análisis de regresión, encontramos estimaciones de la pendiente e intercepto para minimizar la suma de errores al cuadrado. Estos se definen de la siguiente manera:

$$ SSE=\sum_{i=1}^N(y_i-(\hat\beta_0+\hat\beta_1x_i))^2 $$

En términos de nuestro gráfico de dispersión, esto significa que estamos minimizando las distancias verticales (sumadas al cuadrado) entre los datos observados y la línea.

enter image description here

Por otro lado, es perfectamente razonable regresar $x$ contra $y$, pero en ese caso, pondríamos $x$ en el eje vertical, y así sucesivamente. Si mantenemos nuestro gráfico tal como está (con $x$ en el eje horizontal), regresar $x$ contra $y$ (nuevamente, usando una versión ligeramente adaptada de la ecuación anterior con $x$ e $y$ intercambiados) significa que estaríamos minimizando la suma de las distancias horizontales entre los datos observados y la línea. Esto suena muy similar, pero no es exactamente lo mismo. (La forma de reconocer esto es hacerlo de ambas maneras, y luego convertir algebraicamente un conjunto de estimaciones de parámetros en los términos de la otra. Comparando el primer modelo con la versión reorganizada del segundo modelo, es fácil ver que no son iguales.)

enter image description here

Nota que de ninguna manera produciría la misma línea que intuitivamente trazaríamos si alguien nos entregara un trozo de papel cuadriculado con puntos plotados en él. En ese caso, trazaríamos una línea recta a través del centro, pero minimizar la distancia vertical da como resultado una línea ligeramente más plana (es decir, con una pendiente más suave), mientras que minimizar la distancia horizontal da como resultado una línea ligeramente más empinada.

Una correlación es simétrica; $x$ está tan correlacionado con $y$ como $y$ está con $x$. El coeficiente de correlación producto-momento de Pearson puede ser entendido dentro de un contexto de regresión, sin embargo. El coeficiente de correlación, $r$, es la pendiente de la línea de regresión cuando ambas variables han sido estandarizadas primero. Es decir, primero restaste la media de cada observación, y luego dividiste las diferencias por la desviación estándar. La nube de puntos de datos ahora estará centrada en el origen, y la pendiente sería la misma tanto si regresas $y$ contra $x$, como si regresas $x$ contra $y

enter image description here

Ahora, ¿por qué esto es importante? Usando nuestra función de pérdida tradicional, estamos diciendo que todo el error está en solo una de las variables (es decir, $y$). Es decir, estamos diciendo que $x$ se mide sin error y constituye el conjunto de valores que nos importan, pero que $y$ tiene error de muestreo. Esto es muy diferente a decir lo contrario. Esto fue importante en un interesante episodio histórico: A finales de los años 70 y principios de los 80 en Estados Unidos, se argumentó que había discriminación contra las mujeres en el lugar de trabajo, y esto se respaldó con análisis de regresión que mostraban que las mujeres con antecedentes iguales (por ejemplo, calificaciones, experiencia, etc.) ganaban, en promedio, menos que los hombres. Los críticos (o simplemente personas que eran más minuciosas) razonaron que si esto fuera cierto, las mujeres que ganaran lo mismo que los hombres tendrían que ser más calificadas, pero cuando se verificó esto, se descubrió que aunque los resultados eran 'significativos' cuando se evaluaban de una manera, no lo eran 'significativos' cuando se verificaban de la otra manera, lo que desconcertó a todos los involucrados. Mira aquí un famoso artículo que intentó aclarar el tema.


(Actualizado mucho después) Aquí hay otra forma de pensar en esto que aborda el tema a través de las fórmulas en lugar de visualmente:

La fórmula para la pendiente de una línea de regresión simple es una consecuencia de la función de pérdida que se ha adoptado. Si estás utilizando la función de pérdida estándar de Mínimos cuadrados ordinarios (mencionada anteriormente), puedes derivar la fórmula para la pendiente que ves en todos los libros de introducción. Esta fórmula puede presentarse en varias formas; una de ellas la llamo la fórmula 'intuitiva' para la pendiente. Considera esta forma tanto para la situación en la que estás regresando $y$ sobre $x$, como para la situación en la que estás regresando $x$ sobre $y$:

$$ \overbrace{\hat\beta_1=\frac{\text{Cov}(x,y)}{\text{Var}(x)}}^{y\text{ en } x}~~~~~~\overbrace{\hat\beta_1=\frac{\text{Cov}(y,x)}{\text{Var}(y)}}^{x\text{ en }y} $$

Ahora, espero que sea obvio que estos no serían iguales a menos que $\text{Var}(x)$ sea igual a $\text{Var}(y)$. Si las varianzas son iguales (por ejemplo, porque estandarizaste primero las variables), entonces también lo son las desviaciones estándar, y por lo tanto las varianzas también serían ambas iguales a $\text{SD}(x)\text{SD}(y)$. En este caso, $\hat\beta_1$ sería igual a $r$ de Pearson, que es lo mismo en ambos casos por virtud de el principio de conmutatividad:

$$ \overbrace{r=\frac{\text{Cov}(x,y)}{\text{SD}(x)\text{SD}(y)}}^{\text{correlacionar} x \text{con} y}~~~~~~~\overbrace{r=\frac{\text{Cov}(y,x)}{\text{SD}(y)\text{SD}(x)}}^{\text{correlacionar} y \text{con} x} $$

5 votos

+1 por mencionar la minimización de la función de pérdida. Alternativas a las distancias verticales u horizontales incluyen el uso de la distancia perpendicular a la línea o el área del rectángulo, que cada uno produce diferentes líneas de regresión.

10 votos

No creo que la afirmación "la pendiente sería la misma ya sea que regreses $y$ sobre $x$, o $x$ sobre $y." sea correcta si la convención es trazar $x$ en el eje horizontal e $y$ en el eje vertical. En este caso, las pendientes son recíprocas entre sí. Si seguimos la convención de la variable independiente en el eje horizontal y la variable dependiente en el eje vertical, entonces sí, la pendiente es la misma de cualquier manera. Pero con esta convención, la explicación de las distancias verticales versus las distancias horizontales no se aplica; siempre es la distancia vertical de los puntos desde la línea.

7 votos

@DilipSarwate, lo que estás diciendo es cierto. Mi punto al usar los términos "vertical" y "horizontal" es hacer evidente visualmente la idea de que el error se entiende como error de muestreo en $y$, o error de muestreo en $x$. ¿Deberíamos graficar $x$ en el eje vertical y regresar $x$ sobre $y$, las distancias minimizadas serán verticales, pero el error minimizado seguirá siendo error de muestreo en $x$. Puede ser que mi respuesta no sea lo suficientemente clara; podría editarla, si se me ocurre una mejor manera.

15voto

Peter Puntos 1

Voy a ilustrar la respuesta con algo de código R y su resultado.

Primero, construimos una distribución normal aleatoria, y, con una media de 5 y una desviación estándar de 1:

y <- rnorm(1000, mean=5, sd=1)

Luego, creo a propósito una segunda distribución normal aleatoria, x, que es simplemente 5 veces el valor de y para cada y:

x <- y*5

Por diseño, tenemos una correlación perfecta entre x e y:

cor(x,y)
[1] 1
cor(y,x)
[1] 1

Sin embargo, al hacer una regresión, estamos buscando una función que relacione x e yx una función de y sin variación aleatoria:

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5  

Entonces, las regresiones nos dicen que y=0.2x y que x=5y, que por supuesto son equivalentes. El coeficiente de correlación simplemente nos muestra que hay una coincidencia exacta en los niveles de cambio de unidad entre x e y, de modo que (por ejemplo) un aumento de 1 unidad en y siempre produce un aumento de 0.2 unidades en x.

9voto

dicenice Puntos 11

En preguntas como esta es fácil perderse en los temas técnicos, así que me gustaría enfocarme específicamente en la pregunta del título del hilo que pregunta: ¿Cuál es la diferencia entre la regresión lineal en y con x y x con y?

Considera por un momento un modelo econométrico (simplificado) de la teoría del capital humano (el enlace lleva a un artículo del Premio Nobel Gary Becker). Digamos que especificamos un modelo de la siguiente forma: \begin{equation} \text{salarios} = b_{0} + b_{1}~\text{años de educación} + \text{error} \end{equation} Este modelo puede interpretarse como una relación causal entre salarios y educación. Es importante destacar que la causalidad en este contexto significa que la dirección de causalidad va de la educación a los salarios y no viceversa. Esto es implícito en la forma en que se ha formulado el modelo; la variable dependiente son los salarios y la variable independiente son los años de educación.

Ahora, si hacemos una reversión de la ecuación econométrica (es decir, cambiar y en x a x en y), de modo que el modelo se convierta en: \begin{equation} \text{años de educación} = b_{0} + b_{1}~\text{salarios} + \text{error} \end{equation> entonces implícito en la formulación de la ecuación econométrica es que estamos diciendo que la dirección de la causalidad va de los salarios a la educación.

Estoy seguro de que puedes pensar en más ejemplos como este (fuera del ámbito de la economía también), pero como puedes ver, la interpretación del modelo puede cambiar significativamente cuando cambiamos de regresión de y en x a x en y.

Entonces, para responder la pregunta: ¿Cuál es la diferencia entre la regresión lineal en y con x y x con y?, podemos decir que la interpretación de la ecuación de regresión cambia cuando regresamos x en y en lugar de y en x. No debemos pasar por alto este punto porque un modelo que tiene una interpretación sólida puede convertirse rápidamente en uno que tiene poco o ningún sentido.

5voto

Prekop Puntos 21

Hay un fenómeno muy interesante sobre este tema. Después de intercambiar x e y, aunque el coeficiente de regresión cambia, el estadístico t/estadístico F y el nivel de significación para el coeficiente no cambian. Esto también es cierto incluso en regresión múltiple, donde intercambiamos y con una de las variables independientes.

Se debe a una relación delicada entre el estadístico F y el coeficiente de correlación (parcial). Esa relación realmente toca el núcleo de la teoría del modelo lineal. Hay más detalles sobre esta conclusión en mi cuaderno: Por qué intercambiar y y x no tiene efecto en p

1 votos

Podrías encontrar interesante/confuso el siguiente hilo: Intercambiando X e Y en una regresión que contiene un predictor de agrupación.

6 votos

El artículo "Por qué intercambiar y y x no tiene efecto en p" ya no está aquí. ¿Quieres añadirlo de nuevo?

-8voto

La idea básica de la regresión puede ser la de 'causa y efecto' o 'independiente y dependiente'. La práctica normal de colocar la variable independiente en el eje X y la variable dependiente en el eje Y, se representa por Y= mX+c. Ya sea que la pendiente se llame m (X en Y) o (Y en X) y la regresión como: (X en Y) o (Y en X). Se maneja de ambas maneras, lo cual no es bueno y necesita ser aclarado. Los modeladores frecuentemente utilizan Gráficos de Dispersión para juzgar si la Serie Simulada coincide con la Serie Observada; y el uso de la línea de regresión es inevitable. No hay ninguna cláusula causativa. Siguiendo esta necesidad, la pregunta muda planteada por el hilo se mantiene. O simplemente dicho, por favor aclaren cómo llamar al análisis de regresión normal: ¿X en Y; o Y en X?, yendo más allá de la respuesta causativa. No es una respuesta al hilo principal; sino una pregunta paralela.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X