He estado comprobando la densidad de las parcelas para conseguir una sensación para la plausibilidad de los valores que han sido imputado el uso de la mice
paquete en R. agradecería algún consejo/orientación/comentario en el siguiente problema.
Las imputaciones son creados por una llamada a mice()
:
require(mice)
imp <- mice(...)
Los detalles omitidos ya que una gran cantidad de código y un gran conjunto de datos. Esperemos que esto no va en detrimento de la pregunta. Esta es la trama que es generado por el construido-en densityplot
función en el mice
paquete: densityplot( x=imp , data= ~ age)
La línea azul es de los datos observados, las líneas rojas son los datos imputados. Esto me causó cierta alarma. En particular:
Ya que los datos observados son totalmente contenida en cada uno de los imputados conjunto de datos, ¿cómo es posible que los valores que aparecen en los datos observados tienen un cero en la densidad de los datos imputados ?
Hay 7019 observaciones de los cuales sólo 11 faltan, así que yo esperaría que el imputado densidades de ser casi idéntica a la observada.
En un sentido general, ¿cómo pueden las parcelas se ven tan diferentes ?
Así que frente a una parcela de uso ggplot
:
require(ggplot2)
require(reshape)
fortify.mids <- function(x){
imps <- do.call(rbind, lapply(seq_len(x$m), function(i){
data.frame(complete(x, i), Imputation = i, Imputed = "Imputed")
}))
orig <- cbind(x$data, Imputation = NA, Imputed = "Observed")
rbind(imps, orig)
}
x11()
ggplot(fortify.mids(imp), aes(x = age, colour = Imputed,
group = Imputation)) +
geom_density() +
scale_colour_manual(values = c(Imputed = "#000000", Observed = "#D55E00"))
Y como se puede ver, todas las densidades de superposición (ni siquiera se puede realmente cuenta de que hay más de 1 línea).
¿Alguien puede explicar lo que está pasando con la primera parcela ? Tenga en cuenta que los datos utilizados para generar estos 2 parcelas es la misma.