2 votos

Problemas con el conjunto de datos imputados

1) Tenía un conjunto de datos con datos perdidos para las variables de referencia y las variables de resultado. Mediante imputación múltiple en el SPSS (10 imputaciones, 50 iteraciones, PMM para las variables de escala) imputé los datos que faltaban para las variables de referencia. Cuando analizo los datos (es decir, sólo los 10 conjuntos de datos imputados) y utilizo la prueba t de muestras independientes para una variable continua, los resultados se agrupan. Esto incluye la media y el valor p, pero no la desviación estándar. ¿Es correcto que pueda tomar la media de las 10 desviaciones estándar calculadas para los conjuntos de datos imputados para calcular la desviación estándar agrupada?

2) El valor p agrupado de la prueba t independiente sobre 10 conjuntos de datos de imputación en el SPSS no es la media de los 10 valores p que se calculan: ¿estoy en lo cierto? ¿Creo que se hace una corrección por el hecho de que el valor p se basa en datos imputados?

3) Quiero imputar los datos que faltan para las variables de resultado también. No incluí esas variables en el primer proceso de imputación, ya que una de las variables de resultado se ve afectada por el valor de una de las variables de referencia cuyos datos faltaban. Así que pensé que primero imputaría la variable de referencia, crearía un conjunto de datos "completo" para ella y luego imputaría las variables de resultado utilizando esos datos y las otras variables de referencia. ¿Es posible imputar una segunda vez? ¿Y cómo podría hacerlo? Ahora (después del primer proceso de imputación) tengo un conjunto de datos que es 11 veces más grande que el original (conjunto de datos original + 10 x conjunto de datos imputados). ¿Debo utilizar los 10 conjuntos de datos imputados para ejecutar de nuevo el proceso de imputación, lo que daría como resultado otro conjunto de datos diez veces mayor (es decir, 100 veces el tamaño de mi conjunto de datos original)? ¿Y es cierto que esto llevaría a una mayor desviación estándar para las variables de escala?

1voto

Forest Puntos 1

1) Tomar la media de las 10 desviaciones estándar es no correcto. Siguiendo las reglas de Rubin para la imputación múltiple, puede utilizar la siguiente fórmula para obtener la desviación estándar agrupada

$$Var(\bar{\beta}) = m^{-1} \sum_{k=1}^m Var(\hat{\beta_k}) + (1+m^{-1})(m-1)^{-1} \sum_{k=1}^m (\hat{\beta_k} - \bar{\beta})$$ donde $\hat{\beta}_k$ es la estimación puntual estimada para la imputación indexada por $k$ , $Var(\hat{\beta})$ es la varianza de las estimaciones puntuales para una sola imputación, y $$\bar{\beta} = m^{-1} \sum_{k=1}^m \hat{\beta_k}$$ para $m$ imputaciones (10 en su caso). Para la desviación estándar, usted $\sqrt{Var(\bar{\beta})}$ . El cálculo anterior es importante, ya que tiene en cuenta la variación entre imputaciones y en imputaciones, lo que no hace la media de las desviaciones estándar de las imputaciones.

2) Correcto. Se debe utilizar $\bar{\beta}$ y $Var(\bar{\beta})$ para calcular el valor p.

3) Creo que deberías incluir el resultado es el primer modelo. Debería ser posible con SPSS indicar el orden en que se imputan las variables. Es conveniente que el resultado se impute en último lugar. Mis conocimientos de SPSS son limitados, así que no puedo ayudar tanto en este punto. Espero que alguien más pueda comentar esta parte.

0voto

David Nichols Puntos 431
  1. Nunca he visto que Rubin, Little o Schafer aborden explícitamente la agrupación de las desviaciones estándar. Estoy de acuerdo con Jeremy en que probablemente esté bien, aunque un posible enfoque que estoy seguro de que se podría apoyar sería estimar las varianzas, promediarlas y sacar la raíz cuadrada. En realidad se podría hacer esto utilizando el procedimiento MIXTO con sólo un intercepto fijo. La varianza residual es la medida de la varianza de interés, y usted obtendría un valor agrupado para esto.

  2. Sí. Consulte las ecuaciones en los algoritmos estadísticos para la agrupación de imputación múltiple para conocer las fórmulas precisas.

  3. El procedimiento de IMPUTACIÓN MÚLTIPLE no funcionará en datos que ya tengan imputaciones (si la variable Imputación_ existe, da error). Tampoco estoy seguro de por qué no has hecho la estimación completa de una vez, ya que esa sería la forma típica de hacerlo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X