6 votos

Estimación problemas para OLS con delimitada variable de respuesta

Supongamos que tenemos un primer diferencias de regresión con una limitada respuesta de la variable, $$\Delta y_{i} = \beta_1 \Delta X_{i}+\Delta\epsilon_i.$$ For example, suppose $y_{que} \in [0,1]$ where $y_ {}$ could represent participation of a population on a given survey, or the pass rates of students on a standardized test in a given school $i$ for a given year $t$. $X_ {}$ is some variable that changes over time, for example if $y_ {}$ is pass rates in a given school, $X_ {}$ can be average class size. Our goal is to get a unbiased estimate for $\beta_1.$

Si estimamos el modelo anterior mediante OLS, el siguiente problema podría ocurrir. Por simplicidad, supongamos que tenemos dos períodos, $t =1, 2.$ si $y_{i1} = 1$$\Delta y_{i} \in [-1,0],$, mientras que si $y_{i1} = 0$ $\Delta y_{i} \in [0,1].$ por lo Tanto si $y_{i1}$ está cerca de a $1$, sólo puede aumentar por poco. Mientras que si $y_{i1}$ está cerca de a $0$, puede aumentar mucho. Pero en la realidad esto puede falsear los resultados. Esto es porque si el $y_{it}$ no fue delimitada, un aumento en el $X_i$ en el segundo período puede aumentar $y_i$ en el segundo tiempo, pero esto es imposible en nuestro caso, con delimitada respuesta al $y_{i1} = 1.$ El problema es similar, si el aumento de $X_i$ conduce a una disminución en el $y_i$ al $y_{i1} = 0.$

Por lo tanto sospecho que la OPERACIÓN podría no ser un estimador apropiado en este caso, pero bajo otras circunstancias, es posible que funcione? La idea que tengo para solucionar este problema es tomar en consideración en el modelo de la siguiente. De manera realista dado de baja inicialmente $y_{i1}$ (menos de 0.5) es más fácil tener un mayor $y_{i2}$ debido al cambio en el $X_i$, un aumento del $y_i$ dado inicialmente $y_{i1}$ alta (más de 0.5). No estoy seguro de cómo íbamos a hacer exactamente esto, sospecho que el uso de un indicador de la variable de trabajo. Sería este tipo de enfoque de trabajo? Otras ideas para solucionar este tapado problema?

6voto

Bill Puntos 3605

Aunque estoy de acuerdo con Glen_b que los tipos como este se escalan de la cuenta, o si no desea utilizar un recuento de modelo depende de lo que el denominador en la que escaló el recuento. Si $y$ es algo así como la cuota de mercado de Ford en los estados unidos, el denominador es el de los millones, y probablemente debería tratar a $y$ como continua.

Así que, voy a responder a la pregunta de qué debe hacer cuando está bien tratar a $y$ como una variable continua. Específicamente, $y_{it}$ es la probabilidad de que un miembro seleccionado al azar de grupo $i$ pasa la prueba en el tiempo $t$. Queremos informar a $y$ dependen de alguna variable(s) $x$, pero en una forma que respete los hechos que 1) $x\beta$ puede ser cualquier número real y 2) $y$ sin embargo es una probabilidad y debe mantenerse entre 0 y 1.

Lo que queremos hacer, supongo, es venir con una función de $g(x\beta)$, de modo que podemos modelar $y=g(x\beta)$ en un modo que respete la naturaleza de la $y$ como probabilidad y aceptará cualquier número real como su argumento. Además, por lo que la relación entre el $y$ $x$ no es demasiado difícil de interpretar, también vamos a exigir que $g$ ser monótona creciente. Así que, ¿sabemos de las funciones que tiene la recta real como su dominio, el intervalo de $(0,1)$ como su rango de distribución, y son estrictamente creciente?

Esa es una pregunta fácil, ¿verdad? La función de distribución acumulativa de cada variable aleatoria continua (con densidad estrictamente positivo en la recta real) es una función de este tipo. Por lo tanto, vamos a considerar $F$ como el CDF para algunos variable aleatoria continua. Podríamos entonces el modelo:

\begin{align} y_{it} &= F(x_{it}\beta) \end{align}

Hmmm. No hay ningún término de error. Dos observaciones con el mismo $x$, tendrán que tener el mismo $y$. Eso no es bueno. Por lo tanto, necesitamos un término de error. Los metemos dentro de la $F$ o en el exterior? Si lo ponemos fuera, entonces estamos de vuelta para tener que preocuparse de dar alguna extraña de distribución que mantiene la $y$ entre 0 y 1, no importa lo $F(x\beta)$ resulta ser. Así que, vamos a poner dentro de la $F$ y no preocuparse acerca de su distribución:

\begin{align} y_{it} &= F(x_{it}\beta+\epsilon_{it}) \end{align}

Ahora, ¿cómo podemos estimar que es? No con OLS porque $F$ no es lineal. No con NLS debido a que el término de error está en el lugar equivocado (tengo que estar fuera de la $F$). De máxima verosimilitud, tal vez, si estamos dispuestos a asumir una distribución de $\epsilon$. Soy alérgico a suponiendo que las distribuciones de los términos de error, así que no se que. Me gusta OLS, y yo tercamente desea utilizar. El lado derecho de la ecuación anterior se ve casi OK para OLS---las cosas dentro de la $F$ es la correcta. Si tan sólo pudiéramos sacar esa cosa dentro de la $F$. Pero, puesto que el $F$ es estrictamente creciente, se tiene una inversa $F^{-1}$ y esto significa que podemos sacar que buena lado derecho, escondido en el interior de la icky $F$:

\begin{align} y_{it} &= F(x_{it}\beta+\epsilon_{it})\\ F^{-1}(y_{it}) &= F^{-1}(F(x_{it}\beta+\epsilon_{it}))\\ F^{-1}(y_{it}) &= x_i\beta+\epsilon_{it} \end{align}

Siempre y cuando usted sabe $F$, usted puede simplemente ejecutar esta regresión. Leer en $y$$x$. Transformar $y$ mediante la ejecución a través de $F^{-1}$. Realizar la regresión por MCO. Además, usted puede utilizar todas las diversas técnicas que usted sabe que lidiar con varios problemas con los datos. Corrección de heterocedasticidad de la manera que usted siempre, con Huber-White errores estándar. Correcto para la agrupación como lo haría normalmente. Es una de las $x$s endógeno? El uso de variables instrumentales en la forma habitual. O, en su caso, supongo que usted está preocupado acerca de cualquiera de correlación serial o heterogeneidad no observada en los grupos, de modo que la estimación en primeras diferencias. No hay problema:

\begin{align} F^{-1}(y_{it}) &= x_{it}\beta+\epsilon_{it}\\ F^{-1}(y_{it}) - F^{-1}(y_{it-1}) &= (x_{it}-x_{it-1})\beta+\epsilon_{it}-\epsilon_{it-1}\\ \Delta F^{-1}(y_{it}) &= \Delta x_{it}\beta+\Delta \epsilon_{it} \end{align}

Qué usar para $F$? La opción más común es la logística de distribución. Este tiene la función inversa igual a $ln\left( \frac{y_{it}}{1-y_{it}} \right)$. Esta regresión se llama datos agrupados logit o de datos agrupados de regresión logística. El segundo más común es la normal que tiene una función inversa con ninguna forma cerrada. Que la regresión se llama datos agrupados probit. Aquí es cómo va R:

mydata <- data.frame(y=c(0.5,0.3,0.2,0.8,0.1,0.4),x=c(17,4,-12,1,3,5),
                     i=c(1,1,1,2,2,2),t=c(1,2,3,1,2,3))
attach(mydata)

# Apply logit transform
logity <- log(y/(1-y))

# Difference data and deal with boundary between i's
Dly <- logity[1:5]-logity[2:6]
Dx  <- x[1:5]-x[2:6]
Dly <- Dly[i[2:6]==i[1:5]]
Dx <- Dx[i[2:6]==i[1:5]]
summary(lm(Dly~Dx))

Hay un par de advertencias. En primer lugar, esto no funcionará si usted tiene cualquier observaciones con $y=1$ o $y=0$. En segundo lugar, aunque se puede interpretar el signo y la significación de los coeficientes de su regresión de la forma normal modelo de regresión, que no puede interpretar su magnitud en el mismo camino (debido a que el modelo no es lineal). En tercer lugar, usted no puede tomar los valores predichos de la manera que usted desea naturalmente, como $\hat{y}=F(x\hat{\beta}_{\text{OLS}})$. Una vez más, esto es debido a que $F$ es no-lineal, por lo que no puede pasar sólo una expectativa a través de él para obtener $\epsilon$ a desaparecer. Estas dos últimas advertencias (especialmente el último) se llama el re-transformación problema. Usted puede buscar preguntas y respuestas sobre la misma en este sitio.

5voto

AdamSane Puntos 1825

Muestra los porcentajes de participación y los índices de aprobación se escalan de la cuenta.

Usted no debe usar OLS en delimitada variables - que no va a ser ni lineal (líneas rectas no son ni siquiera posible, excepto en rangos limitados) ni tienen varianza constante (también incluso posible, excepto en rangos limitados), y la correcta se debe tener en cuenta el hecho de que son datos de recuento (discretos).

Los problemas de la nota debería estar enmarcada dentro de un modelo adecuado para lo que se conoce acerca de los datos.

Un modelo típico de tal proporción se basa en un binomio de la asunción de la cuenta, que normalmente debería ser ajustado a través de un GLM. Si usted necesita para tratar de las diferencias que se vuelve un poco más complicado, pero aún debe comenzar con un modelo adecuado y, a continuación, si aproximaciones, debe de venir cerca del final del proceso de construcción de un modelo, en lugar de la de inicio.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X