9 votos

Cómo incluir a $x$ $x^2$ en regresión, y si el centro de ellos?

Quiero incluir el término $x$, y el cuadrado de $x^2$ (variables predictoras) en una regresión porque supongo que los bajos valores de $x$ tiene un efecto positivo sobre la variable dependiente y los altos valores tienen un efecto negativo. El $x^2$ debe capturar el efecto de los valores superiores. Por tanto, espero que el coeficiente de $x$ va a ser positivo y el coeficiente de $x^2$ será negativa. Además de $x$, yo también incluyen otras variables predictoras.

He leído en algunos posts aquí que es una buena idea para centro de las variables, en este caso, para evitar la multicolinealidad. Cuándo se debe centrar sus datos y cuándo se debe estandarizar?

  1. Debo centro de ambas variables por separado (en la media) o debo único centro $x$ y, a continuación, tomar la plaza o debo único centro $x^2$ e incluyen el original $x$?

  2. Esto es un problema si $x$ es una variable de recuento?

Con el fin de evitar la $x$ ser una variable de recuento, pensé en dividirlo por una teórica área definida, por ejemplo, 5 kilómetros cuadrados. Este debe ser un poco similar a la de un punto de cálculo de la densidad.

Sin embargo, me temo que en esta situación mi hipótesis inicial sobre el signo de los coeficientes, no ya, como al $x=2$ $x²=4$

$x= 2 / 5 \text{ km}^2$ = $0.4 \text{ km}^2$

pero $x^2$, entonces sería menor, ya $x^2= (2/5)^2= 0.16$.

4voto

pedrofigueira Puntos 468

Tu pregunta es de hecho, compuesta de varios sub-preguntas, que voy a tratar a mi mejor entendimiento.

  • Cómo distinguir los valores altos y bajos' dependencia de una regresión?

Considerando $x$ $x^2$ es una manera de hacerlo, pero son usted seguro de que su prueba es concluyente? Usted será capaz de concluir algo útil para todos los posibles resultados de la regresión? Creo que plantear la pregunta claramente de antemano puede ayudar, y pidiendo similares y relacionados preguntas pueden ayudar. Por ejemplo, se puede considerar un umbral de $x$ para que la regresión de las pendientes son diferentes. Esto se puede hacer utilizando las variables del moderador. Si las diferentes pistas (mientras que la imposición de la misma interceptar) son compatibles, a continuación, usted no tiene ninguna diferencia, de lo contrario se proporciona a sí mismo un claro argumento a favor de su diferencia.

  • Cuando se debe de centrar y standartize?

Creo que esta cuestión no debe ser mezclado con la primera pregunta y prueba, y me temo centrado alrededor de la $x$ o $x^2$ antemano podría sesgar los resultados. Yo aconsejaría no en el centro, al menos en una primera etapa. Recuerde que probablemente no morir de multicolinealidad, muchos autores sostienen que es sólo equivalente a trabajar con un menor tamaño de la muestra (aquí y aquí).

  • ¿Transformación de la discreta variable de recuento en un (continua) variable de punto flotante cambiar la interpretación de los resultados?

Sí, pero esto dependerá en gran medida en los primeros 2 puntos, así que yo sugeriría usted a la dirección de una cosa a la vez. No veo ninguna razón por la regresión no funcionaría sin esta transformación, así que le aconsejo que ignorarlo por el momento. Tenga en cuenta también que al dividir por un elemento en común que están cambiando la escala a la que se $x^2 = x$, pero hay maneras completamente diferentes de ver las cosas, como escribí anteriormente, en el que este umbral se considera de manera más explícita.

4voto

bessman Puntos 2514

En general centrado podría ayudar a reducir la multicolinealidad, pero "probablemente no morir de multicolinealidad" (ver predrofigueira la respuesta).

Más importante, centrado a menudo es necesario para hacer la intersección significativa. En el modelo simple $y_i=\alpha+\beta x_i+\varepsilon$, la intersección se define como el resultado esperado para $x=0$. Si una $x$ valor de cero no son significativos, ni el itercept es. A menudo es útil para el centro de la variable $x$ alrededor de su media; en este caso, el predictor es de la forma $(x_i-\bar{x})$ y la intersección $\alpha$ es el resultado que se espera de un sujeto cuyo valor en $x_i$ es igual a la media de $\bar{x}$.

En tales casos, usted debe de centro $x$ y, a continuación, cuadrado. Usted no puede center $x$ $x^2$ por separado, debido a que son el resultado de la regresión en una "nueva" variable, $(x_i-\bar{x})$, por lo que debe plaza de esta nueva variable. Lo que podría centrado $x^2$ significa?

Se puede centrar una variable de recuento, si su media es significativa, pero sólo podía escala . Por ejemplo, si $x=1,2,3,4,5$ y "2" podría ser una línea de base, puede restar 2: $(x_i-2)=-1,0,1,2,3$. La intersección se convierte en el resultado que se espera de un sujeto cuyo valor en $x_i$ es igual a "2", de un valor de referencia.

En cuanto a la división, sin problemas: cálculo de sus coeficientes sería más grande! Gelman y Hill, §4.1, a dar un ejemplo: $$\begin{align} \text{earnings}&=-61000+1300\cdot\text{height (in inches)}+\text{error} \\ \text{earnings}&=-61000+51\cdot\text{height (in millimeters)}+\text{error}\\ \text{earnings}&=-61000+81000000\cdot\text{height (in miles)}+\text{error} \end{align}$$

Una pulgada es $25.4$ milímetros, por lo $51$$1300/25.4$. Una pulgada es $1.6e-5$ emiles, por lo $81000000$$1300/1.6e-5$. Pero estas tres ecuaciones son completamente equivalentes.

1voto

pauly Puntos 932

Supongo que los valores bajos de x tiene un efecto positivo sobre la variable dependiente y los altos valores tienen un efecto negativo.

Aunque aprecio a los demás' tratamiento de centrado y la interpretación de los coeficientes, lo que he descrito aquí es simplemente un efecto lineal. En otras palabras, lo que he descrito no indica ninguna necesidad de poner a prueba el cuadrado de x.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X