10 votos

Ajuste por todo lo que tienen en la puntuación de propensión?

Tengo una cuestión metodológica, y por lo tanto, ningún conjunto de datos de ejemplo se adjunta.

Estoy planeando hacer una puntuación de propensión ajustado de regresión de Cox que tiene el objetivo de examinar si un determinado fármaco reduce el riesgo de un resultado. El estudio es observacional, que consta de 10.000 personas.

El conjunto de datos contiene 60 variables. Yo juzgo que 25 de estos podría afectar el tratamiento de asignación. Yo nunca ajuste para todos los 25 de estos en una regresión de Cox, pero he escuchado que se puede incluir muchas variables como predictores en un puntaje de propensión y, a continuación, incluir sólo el puntaje de propensión de la subclase y el tratamiento de la variable en la regresión de Cox.

(covariables que no será igual después de la proposición puntuación de ajuste sería, por supuesto, tienen que ser incluidas en la regresión de Cox).

Línea de fondo, es realmente inteligente para incluir que muchos de los predictores en la proposición de puntuación?

10voto

tuomassalo Puntos 376

Yo personalmente he estado preguntando esta pregunta durante al menos 5 años, ya que para mí es el "grande" de la cuestión práctica para el uso de la puntuación de la propensión, en la observación de los datos para estimar los efectos causales. Esta es una excelente pregunta y hay una sutil desacuerdo que corre profundo en las estadísticas frente a ciencias de la computación de las comunidades.

Desde mi experiencia estadísticos tienden a abogar por "tirar al fregadero de la cocina" de datos observables en la estimación del puntaje de propensión, mientras que el equipo de científicos tienden a abogar por una razón teórica para las entradas (aunque los estadísticos ocasionalmente puede mencionar la importancia de la teoría en la que justifica la selección de los insumos en el puntaje de propensión modelo). La diferencia, creo yo, se deriva del hecho de que los científicos de la computación (en particular Judea Pearl) tienden a pensar que la causal en los términos de los dirigidos acíclicos gráficos. Cuando la visualización de la causalidad a través dirigidos acíclicos gráficos, es bastante fácil ver que se puede condicionar a un llamado "collider" variable, que puede "de la onu-bloque" puerta trasera de rutas y de hecho inducir un sesgo en su estimación de un efecto causal.

Mi comida para llevar? Si usted tiene sólida teoría sobre lo que afecta a la selección en el tratamiento, el uso que en la estimación del puntaje de propensión. A continuación, realizar un análisis de sensibilidad para determinar la sensibilidad de la estimación es observado variables de confusión. Si usted no tiene casi ninguna teoría para guiar a usted, a continuación, tirar en la "fregadero de la cocina" y, a continuación, realizar un análisis de sensibilidad.

Una nota sobre la selección de entradas para el puntaje de propensión modelo (esto puede ser obvio, pero vale la pena señalar para otros que no están familiarizados con la estimación de efectos causales a partir de datos observacionales): no control post-tratamiento en las variables. Es decir, usted quiere que sus entradas en el puntaje de propensión modelo a ser medido antes del tratamiento y su resultado se mide después del tratamiento. En los datos de observación en la práctica, eso significa que se necesitan tres ondas de datos, con un conjunto detallado de la línea de base de las covariables, el tratamiento se mide en la segunda ola, y el resultado se mide en el final de la onda.

8voto

dan90266 Puntos 609

En la ausencia de conocimiento de la materia, overinclusion de variables es generalmente mejor que el underinclusion, y hay pocas razones para hacer de selección de modelo para construir una ganancia de PS. Lo que es más importante es construir un modelo flexible. Mi enfoque predeterminado es spline cada variable continua y a no mirar a $P$-valores de las variables en el PS, es decir, puedo usar un aditivo flexible modelo de regresión logística.

Hay muchas ventajas de la covariable el ajuste con el logit PS. Yo normalmente spline el logit de la PS para incluir como una de múltiples grados de libertad de la variable de ajuste, después de hacer la debida diligencia en relación con la no superposición de las regiones. Ver http://www.citeulike.org/user/harrelfe/article/13340175 y http://www.citeulike.org/user/harrelfe/article/13265389 y más artículos en http://www.citeulike.org/user/harrelfe/tag/propensity-score.

Usted tiene que estar seguro de incluir también por separado como covariables las probabilidades de fuertes predictores de la $Y$ PS es sólo para ajuste bias, no para capturar el resultado de la heterogeneidad.

Estoy dudosa de cualquier método de coincidencia de que los resultados en descartar apareamiento observaciones o que es altamente dependiente del conjunto de datos de la orden. Descartadas las observaciones tienen mucho que decir acerca de cómo covariable efectos debe ser estimado.

3voto

Neal Puntos 316

Mirada teórica, conocimiento institucional, y una buena investigación en el campo debe ser su guía acerca de lo $X$s a coincidir. No es determinista de la variable de proceso de selección que le dirá qué variables para elegir.

Aquí hay algunas pautas generales. El Supuesto de Independencia Condicional (CIA) estará satisfecho si $X$ incluye todas las variables que afectan tanto (no tanto, pero tanto) la participación y los resultados. Incluyendo $X$s afectados por el tratamiento, ya sea ex post o ex ante , en previsión de tratamiento, la nulidad de la asunción. Por ejemplo, si un agente sabe que la vacuna está por venir, puede ajustar su pre-shot comportamiento. Incluyendo los instrumentos – variables que afectan a la participación y no en resultados, también es una mala idea. Ellos no van a ayudar con los sesgos de selección y puede empeorar el problema de soporte drásticamente. Por ejemplo, si algunas personas están invitados a tomar el tratamiento, usted no quiere a la condición en que. La inclusión de variables irrelevantes en el puntaje de propensión especificación puede aumentar la varianza ya algunos tratados tienen que ser descartados del análisis o unidades de control tienen que ser utilizados más de una vez o debido a que el ancho de banda tiene que aumentar. En resumen, el fregadero de la cocina enfoque es, sin duda, no se recomienda.

La CIA no puede ser probado sin datos experimentales o de la "sobre-identificación de los" supuestos (como en el caso de la pre-prueba del programa o de otro falso placebo de los ensayos). Si usted tiene suficientes datos históricos, definitivamente, me gustaría probar el último en su cuidadosa conjunto.

3voto

Cheetah Puntos 548

Debido a que el puntaje de propensión modelo es puramente predictivo - usted no está interesado en cualquiera de los coeficientes - siempre he entendido que usted puede lanzar en todas las variables que afectan tanto a la cohorte de entrada y los resultados. Usted puede girar estas variables como usted desea - plaza de ellos, a raíz de ellos, todos los tipos de interacciones, etc. etc. - mientras estés en el aumento de la capacidad de predicción de la calidad de su modelo.

En teoría, no debería siquiera tiene que preocuparse de sujeción de datos para su modelo predictivo, ya que no tiene ningún deseo de generalizar estos resultados, más allá de su muestra (básicamente, el riesgo de sobreajuste' no es un problema). Por último, usted no tiene que limitarse a la regresión logística; como está en la modelización de una salida binaria, usted podría incluso utilizar un modelo GAM - básicamente, cualquier cosa para mejorar la predicción de las tasas.

( Debo añadir como nota contrario a @statsRus punto de uso: en mi experiencia, es el equipo de científicos que utilizar todas las variables, mientras que los estadísticos que considerar cuidadosamente cada uno. Supongo trabajo diferentes orígenes producir diferentes hábitos de trabajo. )

Como para el uso de la puntuación, es generalmente se desaconseja utilizarla como una covariable - tiene menos impacto - y, ciertamente, no junto a las variables que se utilizan para hacer la puntuación de la variable. Un argumento puede ser hecho si, en el puntaje de propensión, se categorizó de una variable continua de edad, por ejemplo - donde se podría incluir la continua versión del modelo, pero realmente, no categorizar la variable el primer lugar...

El uso de la puntuación de coincidencia (con pinzas - especialmente la variable 1:N matching) es popular, pero creo que el mayor impacto que la técnica es inversamente Proporcionales Tratamiento de Pesos (IPTW) - aunque no he utilizado este método y no puedo recordar cómo funciona.

Trate de mirar a Pedro C. Austin trabajo en la Universidad de Toronto - ha escrito montones de papeles en los puntajes de propensión. Aquí está uno en la coincidencia , por ejemplo.

1voto

user35413 Puntos 11

@Dimitriy V. Masterov Gracias por compartir estos importantes hechos. Por el contrario a los libros y artículos de considerar otras regresión marcos, yo no veo ninguna (lectura Rosenbaums libro) directrices para la selección de modelo en la puntuación de propensión análisis. Mientras que los libros de texto estándar / artículos de revisión parecen siempre recomendamos estrictos de selección de variables y mantener el número de predictores de baja, yo no he visto mucho de este debate en la proposición puntuación de análisis. Usted escribe: (1) "perspicacia Teórica, conocimiento institucional, y una buena investigación debe guiar la selección de Xs". Estoy de acuerdo, pero existen circunstancias en las que tenemos una variable en la mano y realmente no sabe (pero podría ser posible) si la variable de efectos de tratamiento de asignación o de resultado. Por ejemplo: debo incluir la función renal, medida por la tasa de filtración, en una proposición de puntuación con el objetivo de ajustar el tratamiento con estatinas. El tratamiento con estatinas no tiene nada que ver con la función renal y ya he incluido una serie de variables que afectarán el tratamiento con estatinas. Pero todavía es tentador para incluir la función renal; puede ajustar aún más. Ahora algunos dicen que se debe ser incluido porque los efectos de los resultados, pero te puedo dar otro ejemplo (como la variable binaria urbano / rural de vida) de una variable que no es efecto del tratamiento ni el resultado, como ya sabemos. Pero me gustaría incluir, siempre que no efecto de la proposición puntuación de precisión. (2) ", Incluyendo Xs ve afectado por el tratamiento, ya sea ex post o ex ante, en la anticipación de tratamiento, la nulidad de la asunción". No estoy seguro de lo que quieres decir aquí. Pero si puedo estudiar el efecto de las estatinas sobre el aparato circulatorio resultado, lo voy a incluir diversas mediciones de lípidos en la sangre en el puntaje de propensión. Los lípidos en la sangre se ven afectados por el tratamiento. Supongo que no he entendido esta declaración.

@statsRus gracias por compartir los hechos, particularmente en lo que usted llama "una nota sobre la selección de los insumos". Creo que las razones de la misma manera que usted hace.

Por desgracia, la proposición de puntuación de los métodos de discutir diferentes estrategias de ajuste en lugar de un modelo de selección de estrategias. Tal vez el ajuste del modelo no es importante. Si ese es el caso, me gustaría ajustar por todas las variables que podrían influir en el pronóstico y el tratamiento de asignación de la menor. Yo no soy un statician, pero si el ajuste del modelo es de ninguna importancia, a continuación, me gustaría ajustar por todas las variables que podrían afectar el tratamiento de asignación y el resultado. Esto sería en muchos casos significa incluyendo las variables que se verán afectadas por el tratamiento.

Además, algunas personas sugieren que la posterior regresión de Cox sólo debe incluir la variable tratamiento y la proposición de puntuación de la subclase. Mientras que otros sugieren que la cox ajuste debe incluir la proposición de puntuación, además de todas las otras variables que se podría ajustar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X