65 votos

Efecto de cambiar la respuesta y la variable explicativa en la regresión lineal simple

Digamos que existe alguna relación "verdadera" entre $y$ y $x$ tal que $y = ax + b + \epsilon$ , donde $a$ y $b$ son constantes y $\epsilon$ es ruido normal i.i.d. Cuando genero datos al azar de ese código R: x <- 1:100; y <- ax + b + rnorm(length(x)) y luego ajustar un modelo como y ~ x Obviamente, obtengo estimaciones razonablemente buenas para $a$ y $b$ .

Si cambio la función de las variables como en (x ~ y) sin embargo, y luego reescribir el resultado para $y$ sea una función de $x$ la pendiente resultante es siempre más pronunciada (más negativa o más positiva) que la estimada por el y ~ x regresión. Estoy tratando de entender exactamente por qué es eso y agradecería si alguien pudiera darme una intuición de lo que está pasando allí.

1 votos

Eso no es cierto en general. Quizá sólo lo veas en tus datos. Pega este código: y = rnorm(10); x = rnorm(10); lm(y~x); lm(x~y); en R varias veces y verás que va en ambas direcciones.

0 votos

Eso es un poco diferente de lo que estaba describiendo. En tu ejemplo y no era una función de x en absoluto, así que no hay realmente ninguna "pendiente" (la 'a' en mi ejemplo).

0 votos

Lm(y~x) se ajusta al modelo $y = \beta_{0} + \beta_{1}x + \varepsilon$ por mínimos cuadrados (equivalente a la estimación ML cuando los errores son iid normales). Hay una pendiente.

1voto

S Red Puntos 215

Se vuelve interesante cuando también hay ruido en sus entradas (que podríamos argumentar que es siempre el caso, ningún comando u observación es siempre perfecto).

He construido algunas simulaciones para observar el fenómeno, basándome en una simple relación lineal $x = y$ con ruido gaussiano tanto en x como en y. He generado las observaciones de la siguiente manera (código python):

x = np.linspace(0, 1, n)
y = x

x_o = x + np.random.normal(0, 0.2, n)
y_o = y + np.random.normal(0, 0.2, n)

Ver los diferentes resultados (odr aquí es ortogonal regresión de distancia, es decir, lo mismo que la regresión de mínimos rectos):

enter image description here

Todo el código está ahí:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd

0voto

mnain Puntos 19

La respuesta corta

El objetivo de una regresión lineal simple es llegar a las mejores predicciones del y variable, dados los valores de la x variable. Se trata de un objetivo diferente al de intentar llegar a la mejor predicción de la x variable, dados los valores de la y variable.

Regresión lineal simple de y ~ x le da el "mejor" modelo posible para predecir y dado x . Por lo tanto, si se ajusta un modelo para x ~ y y lo invirtiera algebraicamente, ese modelo sólo podría hacerlo, en el mejor de los casos, tan bien como el modelo para y ~ x . Pero invertir un modelo ajustado para x ~ y normalmente lo hará peor en la predicción y dado x comparado con el "óptimo y ~ x modelo, porque el "invertido x ~ y El "modelo" se creó para cumplir un objetivo diferente.

Ilustración

Imagina que tienes el siguiente conjunto de datos:

enter image description here

Cuando se realiza una regresión OLS de y ~ x se llega al siguiente modelo

y = 0.167 + 1.5*x

Esto optimiza las predicciones de y haciendo las siguientes predicciones, que tienen errores asociados:

enter image description here

Las predicciones de la regresión OLS son óptimas en el sentido de que la suma de los valores de la columna de la derecha (es decir, la suma de los cuadrados) es lo más pequeña posible.

Cuando se ejecuta una regresión OLS de x ~ y , se te ocurre un modelo diferente:

x = -0.07 + 0.64*y

Esto optimiza las predicciones de x haciendo las siguientes predicciones, con los errores asociados.

enter image description here

De nuevo, esto es óptimo en el sentido de que la suma de los valores de la columna de la derecha es lo más pequeña posible (igual a 0.071 ).

Ahora, imagina que tratas de invertir sólo el primer modelo, y = 0.167 + 1.5*x , utilizando el álgebra, dándole el modelo x = -0.11 + 0.67*x .

Esto le daría las siguientes predicciones y los errores asociados:

enter image description here

La suma de los valores de la columna de la derecha es 0.074 que es mayor que la suma correspondiente del modelo que se obtiene de la regresión de x sobre y, es decir, el x ~ y modelo. En otras palabras, el modelo "invertido y ~ x modelo" está haciendo un peor trabajo en la predicción de x que el modelo OLS de x ~ y .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X