5 votos

Visualizar valores plausibles de imputación múltiple

He estado comprobando la densidad de las parcelas para conseguir una sensación para la plausibilidad de los valores que han sido imputado el uso de la mice paquete en R. agradecería algún consejo/orientación/comentario en el siguiente problema. Las imputaciones son creados por una llamada a mice() :

require(mice)
imp <- mice(...) 

Los detalles omitidos ya que una gran cantidad de código y un gran conjunto de datos. Esperemos que esto no va en detrimento de la pregunta. Esta es la trama que es generado por el construido-en densityplot función en el mice paquete: densityplot( x=imp , data= ~ age)

enter image description here

La línea azul es de los datos observados, las líneas rojas son los datos imputados. Esto me causó cierta alarma. En particular:

  1. Ya que los datos observados son totalmente contenida en cada uno de los imputados conjunto de datos, ¿cómo es posible que los valores que aparecen en los datos observados tienen un cero en la densidad de los datos imputados ?

  2. Hay 7019 observaciones de los cuales sólo 11 faltan, así que yo esperaría que el imputado densidades de ser casi idéntica a la observada.

  3. En un sentido general, ¿cómo pueden las parcelas se ven tan diferentes ?

Así que frente a una parcela de uso ggplot:

require(ggplot2)
require(reshape)

fortify.mids <- function(x){
 imps <- do.call(rbind, lapply(seq_len(x$m), function(i){
       data.frame(complete(x, i), Imputation = i, Imputed = "Imputed")
     }))
     orig <- cbind(x$data, Imputation = NA, Imputed = "Observed")
 rbind(imps, orig)
}

x11()
ggplot(fortify.mids(imp), aes(x = age, colour = Imputed, 
   group = Imputation)) +
geom_density() + 
scale_colour_manual(values = c(Imputed = "#000000", Observed = "#D55E00"))

enter image description here

Y como se puede ver, todas las densidades de superposición (ni siquiera se puede realmente cuenta de que hay más de 1 línea).

¿Alguien puede explicar lo que está pasando con la primera parcela ? Tenga en cuenta que los datos utilizados para generar estos 2 parcelas es la misma.

4voto

Zendmailer Puntos 138

(Previamente había añadido esto como un comentario).

Creo que el densityplot función de los ratones es la visualización de los valores observados en azul y sólo el 11 imputado valores de cada uno de sus 7 imputaciones (o sin embargo muchos de los que se solicita) en color rosa. Porque sólo 11 se imputan los valores en cada uno de imputación, los valores extremos afectan a la forma de estas parcelas dramáticamente. A pesar de ello, las tendencias centrales de la densidad de las parcelas de los datos imputados aparecen relativamente similar-exactamente lo que usted desea. En su segunda trama, parece que se ha trazado, tanto observados y los datos imputados en cada densidad de la trama, de modo que todas las distribuciones se solapan un poco.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X