11 votos

¿Cómo debo modelo continuo de la variable dependiente en el $[0, \infty]$ rango?

Tengo una variable dependiente que puede variar desde 0 hasta el infinito, con 0 siendo realmente corregir observaciones. Entiendo la censura y Tobías modelos sólo se aplicará cuando el valor real de $Y$ es parcialmente desconocido o ausente, en cuyo caso los datos se dijo truncado. Algo más de información sobre datos censurados en este hilo.

Pero he aquí que 0 es un valor real que pertenece a la población. Ejecución de la OPERACIÓN en este tipo de datos tiene la particular molesto problema para llevar negativo de las estimaciones. ¿Cómo debo modelo de $Y$?

> summary(data$Y)
       Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
       0.00    0.00    0.00    7.66    5.20  193.00 
    > summary(predict(m))
       Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      -4.46    2.01    4.10    7.66    7.82  240.00 
    > sum(predict(m) < 0) / length(data$Y)
[1] 0.0972098

La evolución

Después de leer las respuestas, estoy de presentación de informes el ajuste de Gamma obstáculo modelo de uso ligeramente diferente de la estimación de funciones. Los resultados son bastante sorprendentes para mí. Primero echemos un vistazo a la DV. Lo que es evidente es extremadamente grasa de cola de datos. Esto tiene algunas consecuencias interesantes en la evaluación del ajuste que voy a comentar a continuación:

enter image description here

quantile(d$Y, probs=seq(0, 1, 0.1))
        0%        10%        20%        30%        40%        50%        60%        70%        80%        90%       100% 
  0.000000   0.000000   0.000000   0.000000   0.000000   0.000000   0.286533   3.566165  11.764706  27.286630 198.184818 

He construido el Gamma obstáculo modelo de la siguiente manera:

d$zero_one = (d$Y > 0)
logit = glm(zero_one ~ X1*log(X2) + X1*X3, data=d, family=binomial(link = logit))
gamma = glm(Y ~ X1*log(X2) + X1*X3, data=subset(d, Y>0), family=Gamma(link = log))

Finalmente he evaluado la en la muestra de ajuste utilizando tres técnicas diferentes:

# logit probability * gamma estimate
predict1 = function(m_logit, m_gamma, data)
{
  prob = predict(m_logit, newdata=data, type="response")
  Yhat = predict(m_gamma, newdata=data, type="response")
  return(prob*Yhat)
}

# if logit probability < 0.5 then 0, else logit prob * gamma estimate 
predict2 = function(m_logit, m_gamma, data)
{
  prob = predict(m_logit, newdata=data, type="response")
  Yhat = predict(m_gamma, newdata=data, type="response")
  return(ifelse(prob<0.5, 0, prob)*Yhat)
}

# if logit probability < 0.5 then 0, else gamma estimate
predict3 = function(m_logit, m_gamma, data)
{
  prob = predict(m_logit, newdata=data, type="response")
  Yhat = predict(m_gamma, newdata=data, type="response")
  return(ifelse(prob<0.5, 0, Yhat))
}

Al principio me fue evaluar el ajuste por las medidas habituales: AIC, null desviación, error absoluto medio, etc. Pero mirando el cuantil errores absolutos de las funciones anteriores se destacan algunas cuestiones relacionadas con la alta probabilidad de un 0 de los resultados y el $Y$ extrema de grasa de la cola. Por supuesto, el error crece exponencialmente con mayores valores de Y (hay también un gran valor Y en Max), pero lo que es más interesante es que en gran medida dependen de la modelo logit para estimar 0s producir una mejor distribución de ajuste (no sabría cómo describir mejor este fenómeno):

quantile(abs(d$Y - predict1(logit, gamma, d)), probs=seq(0, 1, 0.1))
               0%           10%           20%           30%           40%           50%           60%           70%           80%           90%          100% 
       0.00320459    1.45525439    2.15327192    2.72230527    3.28279766    4.07428682    5.36259988    7.82389110   12.46936416   22.90710769 1015.46203281 
    quantile(abs(d$Y - predict2(logit, gamma, d)), probs=seq(0, 1, 0.1))
         0%         10%         20%         30%         40%         50%         60%         70%         80%         90%        100% 
   0.000000    0.000000    0.000000    0.000000    0.000000    0.309598    3.903533    8.195128   13.260107   24.691358 1015.462033 
quantile(abs(d$Y - predict3(logit, gamma, d)), probs=seq(0, 1, 0.1))
         0%         10%         20%         30%         40%         50%         60%         70%         80%         90%        100% 
   0.000000    0.000000    0.000000    0.000000    0.000000    0.307692    3.557285    9.039548   16.036379   28.863912 1169.321773 

15voto

trish Puntos 31

Censurado vs inflado vs obstáculo

Censurados, obstáculo, y se infla modelos de trabajo mediante la adición de un punto de masa en la parte superior de una ya existente de densidad de probabilidad. La diferencia radica en donde la masa se agrega, y cómo. Por ahora, sólo considerar la adición de un punto de masa en 0, pero el concepto se generaliza fácilmente a otros casos.

Todos ellos implican un paso de dos datos de proceso de generación de alguna variable $Y$:

  1. Sorteo para determinar si $Y = 0$ o $Y > 0$.
  2. Si $Y > 0$, el sorteo para determinar el valor de $Y$.

Inflado y obstáculo modelos

Ambos inflado (normalmente cero-inflado) y obstáculo modelos de trabajo por forma expresa y por separado, especificando $\operatorname{Pr}(Y = 0) = \pi$, por lo que el DGP se convierte en:

  1. Sorteo de una vez de $Z \sim Bernoulli(\pi)$ para obtener la realización de $z$.
  2. Si $z = 0$,$y = z = 0$.
  3. Si $z = 1$, dibuje una vez de $Y^* \sim D^*(\theta^*)$ y establezca $y = y^*$.

En un inflado modelo, $\operatorname{Pr}(Y^* = 0) > 0$. En un obstáculo con el modelo, $\operatorname{Pr}(Y^* = 0) = 0$. Esa es la única diferencia.

Ambos de estos modelos conducen a una densidad con el siguiente formulario: $$ f_D(y) = \mathbb{I}(y = 0) \cdot \operatorname{Pr}(Y = 0) + \mathbb{I}(y \geq 0) \cdot \operatorname{Pr}(Y \geq 0) \cdot f_{D^*}(y) $$

donde $\mathbb{I}$ es un indicador de la función. Es decir, de un punto de masa es simplemente añadido a cero y en este caso que la masa es simplemente $\operatorname{Pr}(Z = 0) = 1 - \pi$. Usted es libre para estimar el $p$ directamente, o a establecer $g(\pi) = X\beta$ para algunos es invertible $g$, al igual que la función logit. $D^*$ también puede depender de $X\beta$. En ese caso, el modelo funciona por "capas" una regresión logística para $Z$ bajo otro modelo de regresión para $Y^*$.

Censurado modelos

Censurado modelos también agregar masa en un límite. Esto se logra "cortar" una distribución de probabilidad, y, a continuación, la "acumulación" el exceso en la frontera. La manera más fácil de conceptualizar estos modelos es en términos de una variable latente $Y^* \sim D^*$ con CDF $F_{D^*}$. A continuación,$\operatorname{Pr}(Y^* \leq y^*) = F_{D^*}(y^*)$. Este es un modelo general; de regresión es el caso especial en que $F_{D^*}$ depende de $X\beta$.

La observó $Y$ es asumido entonces a ser relacionados con el $Y^*$ por: $$ Y = \begin{align}\begin{cases} 0 &Y^* \leq 0 \\ Y^* &Y^* > 0 \end{casos}\end{align} $$

Esto implica una densidad de la forma $$ f_D(y) = \mathbb{I}(y = 0) \cdot F_{D^*}(0) + \mathbb{I}(y \geq 0) \cdot \left(1 - F_{D^*}(0)\right) \cdot f_{D^*}(y) $$

y puede ser fácilmente extendido.

Poner juntos

Mira las densidades: $$\begin{align} f_D(y) &= \mathbb{I}(y = 0) \cdot \pi &+ &\mathbb{I}(y \geq 0) \cdot \left(1 - \pi\right) &\cdot &f_{D^*}(y) \\ f_D(y) &= \mathbb{I}(y = 0) \cdot F_{D^*}(0) &+ &\mathbb{I}(y \geq 0) \cdot \left(1 - F_{D^*}(0)\right) &\cdot &f_{D^*}(y) \end{align}$$

y aviso de que ambos tienen la misma forma: $$ \mathbb{I}(y = 0) \cdot \delta + \mathbb{I}(y \geq 0) \cdot \left(1 - \delta\right) \cdot f_{D^*}(y) $$

porque ellos logran el mismo objetivo: la construcción de la densidad de $Y$ mediante la adición de un punto de masa $\delta$ a la densidad de algunos $Y^*$. El inflado/obstáculo modelo establece $\delta$ por medio de un externo de Bernoulli proceso. El censurado modelo determina $\delta$ por "cortar" $Y^*$ a un límite y, a continuación, "aglutinación" de la izquierda sobre la misa en la frontera.

De hecho, siempre se puede postular un obstáculo modelo que "se parece a" un modelo censurado. Considere un obstáculo modelo donde $D^*$ es parametrizada por $\mu = X\beta$ $Z$ es parametrizada por $g(\pi) = X\beta$. A continuación, puede establecer $g = F_{D^*}^{-1}$. Una inverse CDF es siempre un enlace válido en función de regresión logística, y de hecho una de las razones de regresión logística se denomina "logística" es que el estándar de enlace logit en realidad es la inversa de la CDF de la norma de distribución logística.

Usted puede venir en un círculo completo, en esta idea, así: Bernoulli modelos de regresión con cualquier inverse CDF vínculo (como el logit o probit) puede ser conceptualizado como variable latente de modelos con un umbral para la observación de 1 o 0. Censurado de regresión es un caso especial de obstáculo de regresión donde las variables latentes $Z^*$ es lo mismo que $Y^*$.

Que uno debe utilizar?

Si usted tiene un convincente "la censura de la historia," el uso de un modelo censurado. Un clásico de uso del modelo Tobit -- el econométricos nombre censurado Gaussiano de regresión lineal-es para el modelado de las respuestas de la encuesta que son "top-codificado." Los salarios son a menudo informado de este camino, donde todos los salarios por encima de ciertos límites, a decir de 100.000, se codifica sólo 100.000. Esta no es la misma cosa como el truncamiento, donde los individuos con salarios por encima de los 100.000 que no se observan en todos. Esto podría ocurrir en una encuesta que se administra únicamente a los individuos con salarios de menos de 100.000.

Otro uso de la censura, como se describe por whuber en los comentarios, es cuando se están tomando medidas con un instrumento que tiene precisión limitada. Suponga que la distancia de medición dispositivo no podría decir la diferencia entre 0 y $\epsilon$. Entonces usted podría censurar su distribución en $\epsilon$.

De lo contrario, un obstáculo o inflado modelo es una elección segura. No suele ser malo para la hipótesis de un general de dos pasos de los datos de proceso de generación, y se puede ofrecer alguna información sobre sus datos que no hubiera tenido de otra manera.

Por otro lado, se puede utilizar un modelo censurado sin una censura historia para crear el mismo efecto de un obstáculo con el modelo sin tener que especificar un independiente "on/off" del proceso. Este es el enfoque de Sigrist y Stahel (2010), que censurar una desplazado a la distribución gamma sólo como una forma de modelo de datos en $[0, 1]$. Que papel es particularmente interesante, porque muestra cómo modular de estos modelos son: usted puede realmente cero a inflar un censurados modelo (sección 3.3), o usted puede extender la "variable latente de la historia" para varios superposición de variables latentes (sección 3.1).

El truncamiento

Edit: se ha eliminado, debido a que esta solución es incorrecta

0voto

Repmat Puntos 1118

Permítanme comenzar diciendo que la aplicación de MCO es totalmente posible, muchas aplicaciones de la vida real. Causa (a veces) el problema que puede acabar con los valores ajustados de menos de 0 - supongo que esto es lo que te preocupa? Pero si sólo muy pocos ajustar los valores están por debajo de 0, entonces yo no te preocupes por eso.

El modelo tobit se puede (como usted dice) se utiliza en el caso de censurados o trunca modelos. Pero también se aplica directamente a su caso, en el hecho de que el modelo tobit fue inventado su caso. Y "pilas" en 0, y es lo contrario rougly continua. La cosa a recordar es que el modelo tobit es difícil de interpretar, tendría que depender de los SIMIOS y los GUISANTES. Ver los comentarios de abajo.

También se podría aplicar el possion modelo de regresión, que tiene un casi OLS como en la interpretación, pero normalmente se usa con los datos de recuento. Wooldridge 2012 CAP 17, contiene una muy cuidada discusión del tema.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X