34 votos

Puntuación de propensión coincidencia después de imputación múltiple

Me refiero a estepapel: Hayes JR, Groner JI. "El uso de múltiples imputación y los puntajes de propensión para probar el efecto de los asientos del coche y de la utilización de cinturones en la gravedad de las lesiones de trauma del registro de datos." J Pediatr Luchando 2008;43(5):924-7.

En este estudio, varios de imputación se llevó a cabo para obtener un 15 completa de conjuntos de datos. Los puntajes de propensión fueron calculadas para cada conjunto de datos. A continuación, para cada unidad de observación, registro fue elegido al azar de uno de los 15 conjuntos de datos (incluyendo las relacionadas con la puntuación de propensión) creando un único conjunto de datos final para que luego fue analizada por puntuación de la propensión.

Mis preguntas son: ¿Es esto válido para realizar la puntuación de la propensión, después de múltiples imputación ? Hay maneras alternativas de hacer ?

Para el contexto: En mi nuevo proyecto, mi objetivo es comparar los efectos de los 2 métodos de tratamiento mediante la puntuación de la propensión. Hay datos que faltan y tengo la intención de utilizar la MICE paquete en R para imputar los valores perdidos, a continuación, twang para hacer la puntuación de la propensión, y, a continuación, lme4 a analizar la coincidencia de los datos.

Update1:

He encontrado este documento, el cual toma un enfoque diferente: Mitra, Robin y Reiter, Jerome P. (2011) puntuación de la Propensión, con falta de covariables a través de la iteración secuencial de múltiples imputación [Documento De Trabajo]

En este trabajo los autores calculan los puntajes de propensión en todos los imputados conjuntos de datos y, a continuación, piscina ellos por el promedio, que es en el espíritu de múltiples imputación, utilizando Rubin regla para una estimación de punto - pero en realidad es aplicable para una puntuación de propensión ?

Sería muy bueno si alguien en CV podría proporcionar una respuesta con los comentarios en estos 2 enfoques diferentes, y/o cualesquiera otros....

22voto

Bruce ONeel Puntos 391

La primera cosa a decir es que, para mí, el método 1 (muestreo) parece ser sin mucho mérito - es descartar los beneficios de múltiples imputación, y se reduce a la sola imputación de cada observación, como se ha mencionado por Stas. Yo no puedo ver ninguna ventaja en el uso de la misma.

Hay una excelente discusión de los problemas relacionados con el score de propensión análisis con los datos que faltan en la Colina (2004): Hill, J. "la Reducción de Sesgo en la Estimación del Efecto del Tratamiento en los Estudios Observacionales el Sufrimiento de los Datos que Faltan" ISERP Papeles de Trabajo, 2004. Es descargable desde aquí.

El documento considera dos enfoques para el uso de múltiples imputación (y también otros métodos para tratar con los datos que faltan) y los puntajes de propensión :

  • se obtiene el promedio de los puntajes de propensión después de varios imputación, seguido por la inferencia causal (método 2 en el post anterior)

  • la inferencia causal del uso de cada conjunto de puntuaciones de la propensión de las múltiples imputaciones seguido por el promedio de las causales de las estimaciones.

Además, el documento considera si el resultado debe ser incluido como un predictor en el modelo de imputación.

Hill afirma que mientras que varias de imputación es preferible a otros métodos de tratar con datos faltantes, en general, no hay un a priori de la razón para preferir una de estas técnicas a través de los otros. Sin embargo, puede haber razones para preferir un promedio de los puntajes de propensión, en particular cuando se utilizan ciertos algoritmos a juego. Hill hizo un estudio de simulación en el mismo papel y se encontró que el promedio de los puntajes de propensión antes de la inferencia causal, cuando se incluye el resultado de la imputación de un modelo producido los mejores resultados en términos de error cuadrático medio, y el promedio de las puntuaciones de la primera, pero sin el resultado en el modelo de imputación, produjo los mejores resultados en términos de promedio del sesgo (diferencia absoluta entre el estimado y verdadero efecto del tratamiento). En general, es aconsejable incluir el resultado en la imputación de un modelo (por ejemplo, ver aquí).

Así parecería que el método 2 es el camino a seguir.

14voto

StasK Puntos 19497

Puede haber un choque de dos paradigmas. Varios de imputación está fuertemente basado en el modelo Bayesiano solución: el concepto de la correcta imputación establece, en esencia, que necesita de la muestra de la bien definida la distribución posterior de los datos, de lo contrario, estás jodido. La puntuación de la propensión, por otro lado, es un semi-paramétrico de procedimiento: una vez que se han calculado su puntuación de propensión (no importa cómo, podría haber utilizado una estimación de densidad de kernel, no necesariamente un modelo logit), usted puede hacer el resto simplemente tomando las diferencias entre los tratados y los no tratados con observaciones con el mismo puntaje de propensión, que es algo no-paramétrico de ahora, como no hay ningún modelo de la izquierda que controla por otras variables. No me siento bien acerca de las discontinuidades introducidas por la aplicación literal de la coincidencia (el control con el valor más cercano posible de la puntuación de propensión, e ignorar el resto; Abadie e Imbens (2008) discuten que se hace imposible para conseguir realmente el estándar de los errores de derecho en algunos de la coincidencia de situaciones). Me daría más confianza a la más suave enfoques, como el de ponderación por el inverso de la propensión. Mi favorito de referencia de esta es "en su Mayoría Inofensivas Econometría", subtitulado "Un Empirista Compañero", y dirigido a economistas, pero creo que este libro debería ser de lectura obligatoria para los científicos sociales, la mayoría de los biostatisticians, y no bio estadísticos así para que sepan cómo otras disciplinas enfoque de análisis de datos.

En cualquier caso, el uso de sólo uno de los 15 simulado completa de las líneas de datos por observación es equivalente a una sola imputación. Como resultado, se pierde eficiencia en comparación con los 15 completado conjuntos de datos, y usted no puede estimar los errores estándar correctamente. Se parece a un deficiente procedimiento a mí, desde cualquier ángulo.

Por supuesto, que felizmente barrer debajo de la alfombra el supuesto de que tanto las múltiples imputación modelo y la propensión del modelo son correctas en el sentido de que tiene todo el derecho variables en todas las formas funcionales. Poco hay forma de comprobar que (aunque yo estaría feliz de saber de lo contrario, acerca de las medidas de diagnóstico para ambos de estos métodos).

11voto

Brettski Puntos 5485

Realmente no puedo hablar de los aspectos teóricos de la cuestión, pero yo voy a dar mi experiencia en el uso de PS/IPTW modelos y múltiples imputación.

  1. Nunca he oído hablar de alguien a través de multiplicar conjuntos de datos imputados y el muestreo al azar para crear un único conjunto de datos. Eso no necesariamente significa que sea malo , pero es un extraño método a utilizar. El conjunto de datos también no es lo suficientemente grande que usted tendría que ser creativo para conseguir alrededor de ejecución de 3-5 modelos en lugar de solo uno, para ahorrar tiempo y computación.
  2. Rubin, la regla y la puesta en común es un método bastante general de la herramienta. Dado que el conjunto, multiplicar imputado resultado puede ser calculada usando sólo la varianza y estimaciones, no hay ninguna razón por la que puedo ver que no se podía utilizar para su proyecto de creación de la imputada datos, realizar el análisis en cada set y, a continuación, la agrupación. Es lo que he hecho, es lo que yo he visto hacer, y a menos que tenga una justificación específica de no hacerlo, realmente no puedo ver una razón para ir con algo más exótico, especialmente si usted no entiende lo que está pasando con el método.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X