5 votos

Parámetros de población de una regresión

Esto me ha estado molestando mucho y esperaba una explicación (¡sencilla!) si fuera posible.

Supongamos que he especificado un modelo de regresión lineal: $$ Y = \beta_0 + \beta_1 X + \epsilon $$ Y una alternativa: $$ Y = \beta_0 + \beta_1 X + \beta_2 X^2 + \epsilon $$ Y estoy tratando de estimar el $\beta$ s, digamos quizás a través de OLS (el método exacto no creo que sea relevante).

Mi pregunta es: ¿cuál es la interpretación exacta del $\beta$ s que estoy tratando de estimar?

La confusión se debe a que los valores poblacionales de $\beta_1$ en cualquiera de las especificaciones son presumiblemente diferentes, y esto no se acopla con mi comprensión de los coeficientes de población.

Siempre había interpretado el $\beta$ s como la derivada parcial de $X$ en $Y$ "en realidad". Es decir, si se cambiaba X manteniendo constantes los demás regresores, el cambio en el valor esperado de Y. Proporcionando un modelo cada vez mejor especificado, se aseguraba que la estimación de $\beta_1$ se hizo más preciso (al separar las variables correlacionadas en el término de error).

Esto era importante para mi comprensión; $\beta_1$ no dependía de la especificación de mi modelo -seguía siendo una característica invariante de la población-, sino del estimador que teníamos para $\beta_1$ (b1) cambiaba y se volvía más o menos preciso según el modelo.

Está muy bien, pero esta interpretación no funciona en el ejemplo anterior. Supongamos que la relación entre $X$ y $Y$ es curvilínea. Si estuviera restringido a incluir sólo $X$ y no cualquier polinomio de orden superior, entonces presumiblemente el $\beta_1$ que mejor describa el cambio en $E[Y]$ dado un cambio en $X$ sería diferente que si se permitieran polinomios de orden superior (en la especificación 2).

Así que digamos, por el bien de los argumentos, el DGP fue $$ E[Y] = 1 + 10 X - 2 X^2 $$ donde $0<X<2$ para que el polinomio no influya demasiado. En este caso, el valor real de $X$ en la especificación 1 sea 10? O, para ajustarlo a esa DGP cuando $X^2$ no se especifica ¿debería ser ~6?

Parece que si es esto último, mi idea de que los coeficientes de población no dependen de la especificación se esfuma. Por favor, ¡ayuda!

1 votos

Quizá quieras investigar el uso de polinomios ortogonales.

0 votos

No creo que se vea el resto del mensaje:Pongamos por caso que la DGP fuera y = 1 + 10X - 2.X^2 (0<X<2 para que el polinomio no influya demasiado). En este caso, ¿el valor real de X en la especificación 1 debería ser 10? O, para ajustarlo a esa DGP cuando no se especifica X^2 ¿debería ser ~6? Parece que si es esto último mi entendimiento de que los coeficientes poblacionales no dependen de la especificación se esfuma. Por favor, ¡ayuda!

0 votos

He editado para que aparezca el resto de la pregunta.

5voto

James Sutherland Puntos 2033

El problema es éste:

Siempre había interpretado las betas como la derivada parcial de X sobre Y "en realidad

Eso no siempre es cierto en un modelo con interacciones u otras formas de complejidad.

Pongamos un ejemplo más sencillo. Supongamos que su modelo es $$ E[Y] = \beta_0 + \beta_1 X + \beta_2 Z + \beta_{12} XZ $$ Aquí la derivada parcial de $E[Y]$ con respecto a $X$ es $\beta_1 + \beta_3 Z$ . Dicho de otro modo, $\beta_1$ es sólo la derivada parcial de $Y$ con respecto a $X$ cuando $Z = 0$ . Su modelo es un caso especial de éste.

El efecto marginal poblacional de X (la derivada parcial de la que hablas) es, efectivamente, una de las cosas que te interesa modelizar con esta regresión. Pero piense que es una feliz coincidencia que esta cantidad se corresponda con un parámetro concreto del modelo. En general, no será así.

0 votos

En ese caso, ¿tendría razón al decir que son los parámetros y no la especificación del modelo los que son prioritarios? (Es decir, que los parámetros no dependen de la especificación para su valor real).

0 votos

Desde un punto de vista más pragmático, ¿cuál es el valor correcto de beta_1 en el ejemplo dado? ¿Es 10 (según la DGP) o ~6? (En caso de que no se pueda ver el resto del post, me refiero a esto): Pongamos por caso que la DGP fuera y = 1 + 10X - 2.X^2 (0<X<2 para que el polinomio no influya demasiado). En este caso, ¿el valor real de X en la especificación 1 debería ser 10? O, para ajustarlo a esa DGP cuando no se especifica X^2 ¿debería ser ~6? Parece que si es esto último mi entendimiento de que los coeficientes poblacionales no dependen de la especificación se esfuma. Por favor, ¡ayuda!

0 votos

No estoy seguro de entender la pregunta, pero tal vez esto ayude: $\beta_1$ en la ecuación 1 es el efecto marginal sobre Y de un aumento unitario de X. $\beta_1$ en eqn 2 no lo es. Estos parámetros con nombres idénticos son cosas diferentes. Ahora, cuando la población es eqn 2 y el modelo es eqn 1, OLS tratará de encontrar el $\beta_1$ que dé el mejor ajuste por mínimos cuadrados al verdadero efecto marginal, pero nunca lo conseguirá del todo. Cuando la población es eqn 1 y el modelo es eqn 2, $\beta_1$ acabará estimándose correctamente y $\beta_2$ se estimará en cero.

4voto

jldugger Puntos 7490

Tu interpretación es correcta, siempre que veamos el modelo de la forma correcta.

Dado que la pregunta se refiere a la interpretación de un modelo predictivo, podemos centrarnos en sus predicciones e ignorar el término de error. El ejemplo es lo suficientemente general como para abordarlo directamente, así que consideremos un modelo de la forma

$$Y = \beta_0 + \beta_1 X + \beta_2 X^2.$$

Esto puede verse como la composición de dos funciones, $Y = g(f(X)),$ donde

$$f:\mathbb{R}\to \mathbb{R}^3,\quad f(x) = (1, x, x^2)$$

y

$$g:\mathbb{R}^3\to \mathbb{R},\quad g((x,y,z)) = \beta_0 x + \beta_1 y + \beta_2 z = (\beta_0,\beta_1,\beta_2)(x,y,z)^\prime.$$

Figure

Esta figura (que suprime la primera coordenada invariable) representa el gráfico de $1 + 10y - 2z$ como una superficie plana azul, muestra los datos hipotéticos como puntos rojos y traza el gráfico de $x\to (x, x^2)$ como una curva negra. Todos los puntos se encuentran a lo largo de esta curva y la superficie plana, que se ajusta a los puntos, contiene la curva. A continuación se distingue entre el desplazamiento en el plano (descrito por las derivadas parciales de $g$ ) y el movimiento restringido a la curva (que se describe mediante las derivadas parciales de la función compuesta $g\circ f$ .)

Efectivamente, las betas son las derivadas parciales de $g$ con respecto a sus argumentos:

$$\beta_0 = \frac{\partial g}{\partial x},\ \beta_1 = \frac{\partial g}{\partial y},\ \beta_2 = \frac{\partial g}{\partial z},$$

todos ellos constantes (porque $g$ es una transformación lineal). En este sentido, en efecto, es correcto entender las betas como derivadas parciales.

Sin embargo, las derivadas parciales de $Y$ con respecto a $X$ se obtienen vía la Regla de la Cadena de las de $g$ y los de $f$ :

$$\frac{\partial Y}{\partial X}(X) = Dg(f(X)) Df = (\beta_0, \beta_1, \beta_2) (0,1,2X)^\prime = \beta_1 + 2\beta_2 X.$$

La función $f$ capta el hecho de que las tres variables del modelo, la constante, $X$ y $X^2$ --no son funcionalmente independientes: la tercera está determinada por la segunda. Esta falta de independencia significa que $X$ y $X^2$ no pueden modificarse por separado, del mismo modo que las variables no relacionadas $X$ y $Z$ podría modificarse en un modelo de la forma $Y = \beta_0 + \beta_1 X + \beta_2 Z$ . En general, esto es exactamente lo que significa que cualquier modelo sea "curvilíneo".

En la práctica, $f$ se realiza mediante el propio conjunto de datos: una columna independiente de valores $X^2$ debe crearse (ya sea explícitamente por el usuario o internamente en respuesta a una fórmula de modelo no lineal) a partir de otras columnas de datos, en este caso la de $X$ . La función $g$ -específicamente, sus coeficientes $(\beta_0,\beta_1,\beta_2)$ --es lo que estima la regresión por mínimos cuadrados. Al separar el comportamiento no lineal ( $f$ ) del comportamiento lineal ( $g$ ) de este modo, las técnicas de mínimos cuadrados pueden ajustarse a formas funcionales no lineales.

Sólo teniendo en cuenta estos dos aspectos del modelo $f$ y $g$ --pueden interpretarse los coeficientes de forma adecuada y completa.

0 votos

Esto se ve impresionante - la imagen no parece cargar sin embargo?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X