Si faltan los datos de proceso es conocido y es MNAR, es posible obtener una estimación insesgada de parámetro?

Question

Si faltan los datos de proceso es conocido y es MNAR, es posible obtener una estimación insesgada de parámetro?

Preguntado el 6 de Noviembre, 2016: Cuando se hizo la pregunta
170 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Estaba leyendo sobre los datos que faltan el manejo de las técnicas de "Análisis Estadístico con Los Datos que faltan de la Segunda Edición de" Little y Rubin. En el ejemplo 6.22 consideran que $y_1, y_2, ... y_n$ son yo.yo.d. exponencial de las variables aleatorias. es decir, $f(y_i) = \theta^{-1}e^{-\dfrac y \theta}$ . Más $y_i$ sólo se registran si es menos de un corte de $c$ . Supongamos $r$ $n$ observaciones se registran y el resto que falta. Correspondiente missingness indicador de $M_i$ es 0 si no se encuentra y 1 si se observa. Ellos muestran que la estimación basada en la articulación de la probabilidad de falta de proceso de datos y los datos observados da

$\hat{\theta} = \dfrac {\Sigma_{i=1}^{r} y_i + (n-r)c} r$

Mi pregunta es si esta estimación es imparcial?

Aquí es lo que yo he probado hasta ahora:

Desde la observó $y_i$ pertenecen a un tronco de una distribución exponencial con el apoyo $[0, c)$ , $E(y_i) = \dfrac \theta {1-e^{-\dfrac c \theta}} (1-e^{-\dfrac c \theta}(1+\dfrac c \theta))$ .

$\Rightarrow E(\hat{\theta}) = \dfrac \theta {1-e^{-\dfrac c \theta}} (1-e^{-\dfrac c \theta}(1+\dfrac c \theta)) + nc * E(\dfrac {1} {r}) - c$

Desde $r$ , el número de datos observados que son menos de $c$ sigue una distribución binomial con probabilidad de éxito $p(y < c)$ , $\dfrac {1} {r}$ es la inversa de la distribución binomial. Traté de calcular este valor esperado pero terminé concluyendo que es infinito. Así que me parece que el sesgo también infinito?

Enlace: Inversa Binomio valor Esperado

Las simulaciones que he realizado para comprobar unbiasedness del estimador de

También he realizado algunos simualations para tener una idea aproximada acerca de cómo el estimador es sesgado, y a partir de las simulaciones a mí me parece que puede ser imparcial y su varianza en inversamente proporcional a la frecuencia de corte $c$ . Sin embargo yo no puedo concluir a partir de simulaciones. Sin embargo, aquí está mi código R:

library(ggplot2)

numObs = 100
len = 100
cutoff = 30
origEstimator = vector("numeric", len)
newEstimator = vector("numeric", len)
for(i in 1:len){
  sample = rexp(n = numObs, rate = 0.05)
  origEstimator[i] = mean(sample)

  truncSample = sample[sample<cutoff]
  r = length(truncSample)
  newEstimator[i] = (sum(truncSample) + (numObs-r)*cutoff)/r
}

ggplot(data = data.frame(mean=c(origEstimator, newEstimator), type=c(rep("Complete data", len), rep("Adjusted", len)))) + 
  geom_density(aes(x=mean, color=type))

Captura de pantalla del libro:

Preguntado el 6 de Noviembre, 2016 por dma

Answer 1

1 Respuestas

Answer 2

2voto

Randel Puntos 3040

Esta es una pregunta interesante.

Primero voy a mostrar que $r>0$ . Si $r=0$ , entonces no hay datos observados, y la probabilidad de una función no es cóncava, por lo que este problema estadístico no está bien definida. Dado $r>0$ , $E(1/r)$ debe ser finito.

Deje $p=\mathrm{Pr}(y_i<c) = 1-\mathrm{exp}(-c/\theta)$ . Tenemos $E(1/r) = \sum_{r=1}^n \binom{n}{r} p^r (1-p)^{n-r}/r = n p (1-p)^{n-1} F(1, 1, 1-n;2, 2;p/(p-1)),$ donde $F(\cdot)$ es la función hipergeométrica generalizada. $E(\hat{\theta})$ puede ser calculado por el taponamiento $E(1/r)$ en la ecuación en la pregunta.

El siguiente computación numérica muestra que $E(\hat{\theta}) = \theta$ , es decir, $\hat\theta$ que considera que el MNAR (falta no al azar) mecanismo es imparcial. Tenga en cuenta que genhypergeo() se utiliza para calcular la función hipergeométrica generalizada numérico de error, pero por encima de la suma puede ser calculado exactamente.

library(hypergeo)

theta_hat = function(theta, n = 100) {
  c = .5*theta # arbitrary c can be used
  p = 1 - exp(-c/theta)
  theta*(1-exp(-c/theta)*(c/theta+1))/(1-exp(-c/theta)) + (n *c) *
    (genhypergeo(U=c(1,1,1-n), L=c(2,2), z=p/(p-1)) * n * p * (1-p)^(n-1)) - c
}

theta = 1:10
plot(theta, sapply(theta, theta_hat), ylab='theta_hat')
abline(a=0, b=1)

Respondido el 12 de Noviembre, 2016 por Randel (3040 Puntos )

Si faltan los datos de proceso es conocido y es MNAR, es posible obtener una estimación insesgada de parámetro?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Si faltan los datos de proceso es conocido y es MNAR, es posible obtener una estimación insesgada de parámetro?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: