12 votos

¿Es el supuesto de linealidad en la regresión lineal una mera definición de $\epsilon$ ?

Estoy revisando la regresión lineal.

El libro de texto de Greene dice:

enter image description here enter image description here

Ahora, por supuesto, habrá otros supuestos en el modelo de regresión lineal, tales como $E(\epsilon|X)=0$ . Esta suposición, combinada con la de linealidad (que en efecto define $\epsilon$ ), pone la estructura en el modelo.

Sin embargo, la suposición de linealidad por sí mismo no pone ninguna estructura en nuestro modelo, ya que $\epsilon$ puede ser completamente arbitrario. Para cualquier variable $X, y$ cualquiera, sin importar la relación entre ambos podríamos definir un $\epsilon$ de manera que se cumpla la hipótesis de linealidad. Por lo tanto, la "suposición" de linealidad debería llamarse realmente definición de $\epsilon$ en lugar de una suposición.

Por eso me pregunto :

  1. ¿Está Greene siendo descuidado? ¿Debería haber escrito: $E(y|X)=X\beta$ ? Se trata de una "suposición de linealidad" que en realidad estructura el modelo.

  2. ¿O tengo que aceptar que el supuesto de linealidad no pone estructura en el modelo sino que sólo define un $\epsilon$ donde los otros supuestos utilizarán esa definición de $\epsilon$ para estructurar el modelo?


Editar Como parece que hay cierta confusión en torno a los otros supuestos, permítanme añadir aquí el conjunto completo de supuestos:

enter image description here

Esto es de Greene, Econometric Analysis, 7ª ed. p. 16.

0 votos

No estoy seguro de a qué Greene te refieres (una rápida búsqueda en Google, por supuesto, me ayudó), pero referirse a otros como posiblemente descuidados, sin una referencia completa para que los lectores de aquí lo comprueben, es algo injusto IMHO.

4 votos

Son observaciones perspicaces (+1). Sin embargo, para ser justos, creo que la mayoría de los autores (si no todos) trabajan en un marco en el que la propia significa de un error aditivo como $\epsilon$ incluye la suposición de que su distribución está centrada en $0$ .

2 votos

@whuber, he añadido todo el conjunto de supuestos. mira A3. A3 hace explícito que está centrado en 0, lo que implicaría que Greene no lo asume en A1, lo que me lleva a cuestionar si A1 tiene algún contenido lógico, aparte de definir $\epsilon$ .

9voto

Ran Kerry Puntos 1
  1. ¿Está Greene siendo descuidado? ¿Debería haber escrito: $E(y|X)=X\beta$ ? Se trata de una "suposición de linealidad" que en realidad pone estructura en el modelo.

En cierto sentido, sí y no. Por un lado, sí, dada la actual investigación de causalidad moderna es descuidado, pero igual que la mayoría de los libros de texto de econometría, en el sentido de que no hacen una clara distinción de las cantidades causales y observacionales, lo que lleva a confusiones comunes como esta misma pregunta. Pero, por otro lado, no, esta suposición no es descuidada en el sentido de que sí es diferente de suponer simplemente $E(y|X)=X\beta$ .

El quid de la cuestión es la diferencia entre la expectativa condicional, $E(y|X)$ y el estructural ecuación (causal) de $y$ así como su expectativa estructural (causal) $E[Y|do(X)]$ . El supuesto de linealidad de Greene es un estructural supuesto. Veamos un ejemplo sencillo. Imaginemos que la ecuación estructural es

$$ y= \beta x + \gamma x^2 + \epsilon $$

Ahora dejemos que $E[\epsilon |x] = \delta x - \gamma x^2$ . Entonces tendríamos:

$$ E[y|x] = \beta'x $$

donde $\beta' = \beta + \delta$ . Además, podemos escribir $y = \beta'x + \epsilon'$ y tendríamos $E[\epsilon'|x] = 0$ . Esto demuestra que podemos tener una especificado correctamente expectativa condicional lineal $E[y|x]$ que por definición va a tener una perturbación ortogonal, sin embargo la ecuación estructural sería no lineal.

  1. ¿O tengo que aceptar que el supuesto de linealidad no pone estructura en el modelo sino que sólo define un $\epsilon$ donde los otros supuestos utilizarán esa definición de $\epsilon$ para poner la estructura en el modelo?

La hipótesis de la linealidad define una $\epsilon$ Es decir, $\epsilon := y - X\beta = y - E[Y|do(X)]$ por definición, donde $\epsilon$ representa las desviaciones de $y$ de su expectativa cuando experimentalmente set $X$ ( véase la sección 5.4 de Pearl ). Los demás supuestos se utilizan para identificación de los parámetros estructurales (por ejemplo, el supuesto de exogeneidad de $\epsilon$ permite identificar la expectativa estructural $E[Y|do(X)]$ con la expectativa condicional $E[Y|X]$ ) o para la derivación de propiedades estadísticas de los estimadores (por ejemplo, el supuesto de homocedasticidad garantiza que OLS es AZUL, el supuesto de normalidad facilita la obtención de resultados de "muestra finita" para la inferencia, etc.).

Sin embargo, la suposición de linealidad por sí mismo no pone ninguna estructura en nuestro modelo, ya que $\epsilon$ puede ser completamente arbitrario. Para cualquier variable $X, y$ cualquiera, sin importar la relación entre ambos podríamos definir un $\epsilon$ de manera que se cumpla el supuesto de linealidad lineal se cumpla.

¡Su afirmación aquí entra en el principal problema de la inferencia causal en general! Como se muestra en el sencillo ejemplo anterior, podemos cocinar perturbaciones estructurales que podrían hacer que la expectativa condicional de $y$ dado $x$ lineal. En general, varios modelos estructurales (causales) diferentes pueden tener la misma distribución observacional, incluso puede haber causalidad sin asociación observada. Por lo tanto, en este sentido, tiene usted razón: necesitamos más supuestos sobre $\epsilon$ con el fin de poner "más estructura" en el problema e identificar los parámetros estructurales $\beta$ con datos observacionales.

Nota al margen

Vale la pena mencionar que la mayoría de los libros de texto de econometría son confusos cuando se trata de la distinción entre regresión y ecuaciones estructurales y su significado. Esto se ha documentado últimamente. Puede consultar un artículo de Chen y Pearl aquí así como una encuesta ampliada por Chris Auld . Greene es uno de los libros examinados.

0 votos

Gracias, esta es la respuesta que estaba buscando. Entonces, cuando dices que el supuesto de linealidad es un supuesto estructural, ¿qué implica eso exactamente sobre la relación causal entre $\epsilon$ y $x$ ? Todavía puede haber una relación causal, ¿correcto? Es sólo que el directo relación causal de $x$ a $y$ es lineal, ¿es eso? Todavía puede haber un efecto causal altamente no lineal de $x$ en $y$ a través de $\epsilon$ ?

1 votos

@Programador2134 esa es otra área en la que los libros de texto de econometría son chapuceros, encontrarás poca referencia a los efectos directos/indirectos, la mediación, etc. Si la ecuación es estructural, entonces podemos tener una definición operativa de la perturbación estructural como la diferencia de $y$ con el efecto causal esperado de $X$ Es decir $\epsilon := y - E[Y|do(X)] = y - X\beta$ . Por lo tanto, en este sentido, la estructura $\epsilon$ no es "causada" por $X$ . Sin embargo, esto no nos dice nada sobre la asociación de $\epsilon$ y $X$ ya que podrían tener causas comunes.

0 votos

@Programmer2134 por cierto, tus inquietudes van por buen camino, ¡creo que el Primer on causal inference de Pearl podría ser un interesante compañero del de Greene!

0voto

IWS Puntos 126

editado tras los comentarios de OP y Matthew Drury

Para responder a esta pregunta asumo que Greene, y OP, tienen en mente la siguiente definición de linealidad: Linealidad significa que por cada incremento de una unidad en este predictor, el resultado se incrementa en beta ( $$), wherever on the range of possible predictor values this one-unit increase occurs. I.e. the function $ y=f(x) $ is $ y=a+bx$ y no Por ejemplo $y=a+bx^2$ o $y=a+sin(x)$ . Además, este supuesto se centra en las betas y, por tanto, se aplica a los predictores (también conocidos como variables independientes).

La expectativa de los residuos condicionada al modelo $E(|X)$ es otra cosa. Sí, es cierto que la matemática detrás de una regresión lineal define/intenta definir $E(|X)=0$ . Sin embargo, se suele fijar en toda la gama de valores ajustados/previstos para $y$ . Si se observan las partes específicas del predictor lineal y el valor predicho de $y$ , puede que te des cuenta de que heteroscedasticidad (zonas en las que la variación de $$ is larger than elsewhere), or areas where $ E(|X)0 $. A non-linear association between the $ x $'s and $ y $ might be the cause for this, but is not the only reason heteroscedasticity or $ E(|X)0$ puede producirse (véase, por ejemplo, el sesgo del predictor ausente).

De los comentarios: El PO afirma que "el supuesto de linealidad no restringe el modelo de ninguna manera, dado que epsilon es arbitrario y puede ser cualquier función de XX", con lo que estoy de acuerdo. Creo que esto queda claro por el hecho de que las regresiones lineales pueden ajustarse a cualquier dato, tanto si se viola el supuesto de linealidad como si no. Estoy especulando, pero esa podría ser la razón por la que Greene decidió mantener el error $$ in the formula - saving the $ E(|X)=0 $ for later - to denote that in assuming linearity, $ y $ (and not the expected $ y $) can be defined based on $ X $ but maintains some error $$ , independientemente de los valores $$ takes. I can only hope that he would later go on to state the relevancy of $ E(|X)=0$.

En resumen (hay que reconocer que sin leer completamente el libro de Greene y comprobar su argumentación):

  1. Greene se refiere probablemente a que las betas son constantes para todo el rango del predictor (hay que hacer hincapié en la beta del $y=X + $ o $E(|X)=X$ ecuaciones;
  2. La hipótesis de la linealidad da cierta estructura al modelo. Sin embargo, hay que tener en cuenta que las transformaciones o adiciones, como los splines antes de la modelización, pueden hacer que las asociaciones no lineales se ajusten al marco de la regresión lineal.

3 votos

Esto es útil, pero la apelación a la continuidad no es necesaria en ningún sentido. La maquinaria funciona igual si $X$ sólo se basa en $(0, 1)$ predictores.

1 votos

Usted escribió $f(y)$ pero creo que querías decir $f(x)$ ,.

0 votos

@NickCox He editado estos puntos.

-1voto

ChicksDigTrig Puntos 6

La respuesta anterior me ha confundido un poco, de ahí que vaya a intentarlo de nuevo. Creo que la pregunta no se refiere en realidad a la regresión lineal "clásica", sino al estilo de esa fuente concreta. Sobre la parte de la regresión clásica:

Sin embargo, la suposición de linealidad por sí misma no estructura nuestro modelo

Eso es absolutamente correcto. Como usted ha dicho, $\epsilon$ podría acabar con la relación lineal y sumar algo completamente independiente de $X$ para que no podamos calcular ningún modelo.

¿Está Greene siendo descuidado? ¿Debería haber escrito: $E(y|X)=X$

No quiero responder a la primera pregunta, pero permítanme resumir los supuestos necesarios para la regresión lineal habitual:

Supongamos que observas (te dan) puntos de datos $x_i \in \mathbb{R}^d$ y $y_i \in \mathbb{R}$ para $i=1,...,n$ . Hay que suponer que los datos $(x_i, y_i)$ que has observado proviene de variables aleatorias distribuidas de forma independiente e idéntica $(X_i, Y_i)$ tal que ...

  1. Existe un fijo (independiente de $i$ ) $\beta \in \mathbb{R}^d$ tal que $Y_i = \beta X_i + \epsilon_i$ para todos $i$ y las variables aleatorias $\epsilon_i$ son tales que

  2. El $\epsilon_i$ también son iid y $\epsilon_i$ se distribuye como $\mathcal{N}(0, \sigma)$ ( $\sigma$ debe ser independiente de $i$ también)

  3. Para $X = (X_1, ..., X_n)$ y $Y = (Y_1, ..., Y_n)$ las variables $X, Y$ tienen una densidad común, es decir, la variable aleatoria única $(X, Y)$ tiene una densidad $f_{X,Y}$

Ahora puedes recorrer el camino habitual y calcular

$$f_{Y|X}(y|x) = f_{Y,X}(y,x)/f_X(x) = \left(\frac{1}{\sqrt{2\pi d}}\right)^n \exp{\left( \frac{-\sum_{i=1}^n (y_i - \beta x_i)^2}{2\sigma}\right)} $$

de modo que por la "dualidad" habitual entre el aprendizaje automático (minimización de las funciones de error) y la teoría de la probabilidad (maximización de las probabilidades) se maximiza $-\log f_{Y|X}(y|x)$ en $\beta$ que, de hecho, le da el habitual "RMSE".

Ahora bien, como se ha dicho: Si el autor del libro que citas quiere hacer este punto (que tienes que hacer si alguna vez quieres ser capaz de calcular la "mejor línea de regresión posible" en la configuración básica) entonces sí, él debe hacer esta suposición sobre la normalidad de la $\epsilon$ en alguna parte del libro.

Ahora hay diferentes posibilidades:

  • No anota esta suposición en el libro. Entonces es un error en el libro.

  • Lo escribe en forma de comentario "global" como "siempre que escribo $+ \epsilon$ entonces el $\epsilon$ se distribuyen normalmente de forma iid con media cero a menos que se indique lo contrario". Entonces, en mi opinión, es un mal estilo porque provoca exactamente la confusión que sientes ahora. Por eso tiendo a escribir las hipótesis de alguna forma abreviada en cada Teorema. Sólo entonces cada bloque de construcción puede ser visto limpiamente en su propio derecho.

    • Sí lo escribe muy cerca de la parte que citas y tú/nosotros simplemente no nos dimos cuenta (también es una posibilidad :-))

Sin embargo, también en un sentido matemático estricto, el error normal es algo canónico (la distribución con mayor entropía [una vez fijada la varianza], por lo que produce los modelos más fuertes) por lo que algunos autores tienden a omitir este supuesto pero lo utilizan de todas formas. Formalmente, tienes toda la razón: Utilizan las matemáticas de forma "equivocada". Siempre que quieren llegar a la ecuación de la densidad $f_{Y|X}$ como se ha dicho anteriormente, entonces tienen que saber $\epsilon$ bastante bien, de lo contrario sólo tienes propiedades de ella volando en cada ecuación con sentido que intentas escribir.

3 votos

No es necesario que los errores se distribuyan normalmente para poder utilizar OLS.

0 votos

(-1) No es necesario que los errores se distribuyan normalmente. De hecho, ni siquiera necesitan ser independientes o estar idénticamente distribuidos para que la estimación del parámetro sea insesgada y para que las pruebas sean consistentes. Sus especificaciones mucho más estrictas son necesarias para que OLS sea una prueba exacta.

0 votos

@AdamO: ¿Ah? Entonces, ¿cómo se calcula la probabilidad? O mejor dicho... si te piden que implementes una regresión lineal: ¿qué recta de regresión seleccionas si el error no se distribuye normalmente y la única $\epsilon_i$ no son independientes?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X