25 votos

¿Qué pasa cuando incluyo una variable cuadrada en mi regresión?

Empiezo con mi regresión de la OLS: $$ y = \beta _0 + \beta_1x_1 + \beta_2 D + \varepsilon $$ donde D es una variable ficticia, las estimaciones se vuelven diferentes de cero con un bajo valor p. Entonces realizo un test de Ramsey RESET y encuentro que tengo una mala interpretación de la ecuación, por lo que incluyo la x al cuadrado: $$ y = \beta _0 + \beta_1x_1 + \beta_2x_1 ^2+ \beta_3 D + \varepsilon $$

  1. ¿Qué explica el término cuadrado? (¿Aumento no lineal en Y?)
  2. Al hacer esto mi estimación D no varía más de cero, con un alto valor p. ¿Cómo interpreto el término cuadrado en mi ecuación (en general)?

Editar: Mejorar la pregunta.

0 votos

1 votos

La razón más probable: $x_{1}^2$ y $D$ parecen explicar la misma variabilidad en $y$

3 votos

Una cosa que puede ayudar es centrar $x$ antes de creando su término al cuadrado (ver aquí ). En cuanto a la interpretación de su término al cuadrado, sostengo que es mejor interpretar $\beta_1x_1+\beta_2x_1^2$ en su conjunto (ver aquí ). Otra cosa es que puede necesitar una interacción, es decir, añadir $\beta_4x_1D+\beta_5x_1^2D$ .

25voto

Ofir Luzon Puntos 131

Bueno, en primer lugar, la variable ficticia se interpreta como un cambio de intercepción. Es decir, su coeficiente $\beta_3$ le da la diferencia en el intercepto cuando $D=1$ es decir, cuando $D=1$ el intercepto es $\beta_0 + \beta_3$ . Esa interpretación no cambia al añadir el cuadrado $x_1$ .

Ahora, el punto de añadir un cuadrado a la serie es que usted asume que la relación se desvanece en un cierto punto. Mirando tu segunda ecuación

$$y = \beta _0 + \beta_1x_1+\beta_2x_1^2+\beta_3 D + \varepsilon$$

Tomando la derivada con respecto a $x_1$ produce

$$\frac{\delta y}{\delta x_1} = \beta_1 + 2\beta_2 x_1$$

Al resolver esta ecuación se obtiene el punto de inflexión de la relación. Como explicó el usuario1493368, esto está reflejando efectivamente una forma de U inversa si $\beta_1<0$ y viceversa. Tomemos el siguiente ejemplo:

$$\hat{y} = 1.3 + 0.42 x_1 - 0.32 x_1^2 + 0.14D$$

La derivada con respecto a $x_1$ es

$$\frac{\delta y}{\delta x_1} = 0.42 - 2*0.32 x_1 $$

Resolver para $x_1$ le da

$$\frac{\delta y}{\delta x_1} = 0 \iff x_1 \approx 0.66 $$

Ese es el punto en el que la relación tiene su punto de inflexión. Puedes echar un vistazo a Wolfram-Alpha's de la función anterior, para visualizar un poco su problema.

Recuerde que al interpretar el efecto ceteris paribus de un cambio en $x_1$ en $y$ Hay que mirar la ecuación:

$$\Delta y = (\beta_1 + 2\beta_2x_1)\Delta x$$

Es decir, no se puede interpretar $\beta_1$ de forma aislada, una vez añadido el regresor al cuadrado $x_1^2$ ¡!

En cuanto a su insignificante $D$ después de incluir el cuadrado $x_1$ apunta a un sesgo de mala especificación.

0 votos

Hola. Si tuviera varios predictores, ¿debería utilizar derivadas parciales o derivadas totales (diferenciales)?

1 votos

Una derivada parcial sigue siendo el camino correcto en este caso. La interpretación de todos los coeficientes es ceteris paribus es decir, manteniendo todo lo demás constante. Eso es exactamente lo que se hace cuando se toma una derivada parcial.

0 votos

Ver esto Página del IDRE de la UCLA para complementar la gran respuesta de @altabq.

24voto

paxdiablo Puntos 341644

Un buen ejemplo de inclusión del cuadrado de la variable proviene de la economía laboral. Si se asume y como salario (o logaritmo del salario) y x como una edad, entonces incluyendo x^2 significa que se está comprobando la relación cuadrática entre la edad y el salario. El salario aumenta con la edad a medida que las personas adquieren más experiencia, pero a mayor edad, el salario comienza a aumentar a un ritmo decreciente (las personas envejecen y no estarán tan sanas para trabajar como antes) y en algún momento el salario no crece (alcanza el nivel salarial óptimo) y luego comienza a caer (se jubilan y sus ingresos comienzan a disminuir). Así pues, la relación entre el salario y la edad tiene forma de U invertida (efecto del ciclo vital). En general, para el ejemplo mencionado aquí, el coeficiente de age se espera que sea positivo y que en age^2 El punto aquí es que debe haber una base teórica/justificación empírica para incluir el cuadrado de la variable. La variable ficticia, en este caso, puede considerarse que representa el género del trabajador. También se puede incluir el término de interacción de género y edad para examinar si el diferencial de género varía según la edad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X