Los métodos de puntuación de propensión son un tipo de método utilizado para ajustar los factores de confusión. Existen otros métodos que se basan en diferentes supuestos. Algunos de los más populares son la diferencia en diferencias, que se basa en una suposición sobre la estabilidad en el tiempo, y el análisis de variables instrumentales, que se basa en una suposición sobre la aleatorización de alguna otra variable. Una tercera clase de métodos incluye los que se basan en el supuesto de que se han medido todas las variables de confusión. Recomiendo encarecidamente este artículo de 2020 de Matthay et al. para una comparación de estos métodos.
Los métodos de puntuación de la propensión pertenecen a esta última clase. Otros métodos también pertenecen a esta clase, como el ajuste de regresión, los métodos "g" y los métodos doblemente robustos. Todos ellos son formas diferentes de ajustar la confusión de las covariables medidas condicionándolas de determinadas maneras. Difieren principalmente en su rendimiento estadístico bajo varios supuestos sobre la forma funcional de los procesos de tratamiento y resultado.
Hay varias formas de utilizar las puntuaciones de propensión, incluyendo el emparejamiento (que usted ha descrito), la ponderación, la subclasificación y el ajuste de regresión, y hay formas de realizar cada uno de estos métodos sin puntuaciones de propensión. Menciono todo esto para que vea las puntuaciones de propensión como una implementación particular de métodos que en sí mismos son miembros de una amplia clase de métodos que es una de las varias clases de métodos que uno puede usar para ajustar la confusión. Los métodos de puntuación de propensión no son necesariamente superiores a ninguno de ellos, y su ubicuidad es probablemente un artefacto cultural más que una verdadera justificación por su rendimiento estadístico.
He aquí algunas razones (y refutaciones) de por qué la puntuación de propensión puede ser popular:
- Son fáciles de aplicar (pero sólo en su forma más básica y de menor rendimiento; para utilizarlas bien se requieren amplios conocimientos)
- Son fáciles de explicar al público no especializado (pero también lo son muchos métodos que no implican puntuaciones de propensión, como otros métodos de emparejamiento)
- Suelen ser eficaces a la hora de eliminar los sesgos debidos a la confusión (pero hay varios métodos que son manifiestamente mejores, especialmente mejores que los métodos de puntuación de la propensión, que son los más utilizados)
- Separan la fase de diseño y la de análisis, lo que conduce a una investigación más reproducible y a la disminución de la dependencia de los modelos (pero cuando se utilizan mal pueden aumentar la dependencia de los modelos y no son inmunes al fisgoneo y al uso nefasto o erróneo)
- Están implementados en la mayoría de los programas informáticos de estadística (pero también lo están muchos otros métodos, y se implementan de forma diferente en cada programa)
- Son una forma de reducción de la dimensión en conjuntos de datos de alta dimensión (pero hay otras formas de reducir la dimensionalidad, y aún así las puntuaciones de propensión se utilizan incluso para ajustar unas pocas covariables)
- Dependen menos de las hipótesis de modelización que los métodos basados en la regresión (pero hay muchos otros métodos que también permiten una flexibilidad extrema con un rendimiento a menudo mejorado)
- Suenan elegantes y hacen que el analista parezca sofisticado (pero los estadísticos experimentados pueden señalar fácilmente los errores que los usuarios aficionados cometen constantemente)
(Puede que piense que estoy en contra de las puntuaciones de propensión, pero compruebe el propensity-scores y ver mi participación. También soy el autor de varios paquetes de R para facilitar el uso de los métodos de puntuación de propensión).
En mi opinión, las puntuaciones de propensión se utilizan en exceso (o, en el mejor de los casos, no se justifican) en la literatura médica. Hay muchos métodos más sofisticados y de mejor rendimiento que se basan en los mismos supuestos que los métodos de puntuación de propensión y que están infravalorados en la investigación médica, a menudo porque los analistas y revisores de la investigación médica no están familiarizados con ellos. Espero animar a la gente a considerar las puntuaciones de propensión como un opción en un vasto mar de opciones, cada una de las cuales tiene sus propias ventajas e inconvenientes que la hacen más o menos adecuada para un determinado problema. Decidir qué opción es la mejor para un problema determinado requiere la ayuda de un estadístico especialmente formado en el ámbito de la estimación del efecto causal.
2 votos
La alternativa es esperar que la aleatorización de los sujetos en dos (o tres o más) grupos funcione como se pretende. Si realmente se pueden encontrar "gemelos falsos" (o "trillizos" o bloques), se podría reducir la variabilidad y se podría utilizar una prueba pareada en lugar de una prueba de dos muestras. En la práctica, yo diría que la "coincidencia de puntuaciones" es siempre deseable y rara vez se puede conseguir.
6 votos
No, la puntuación de propensión no es una "obligación" para la inferencia causal. Las puntuaciones de propensión pueden ser útiles, pero tienen inconvenientes. Véase la crítica de Hernán y Robins en el capítulo 15: Modelos de propensión, modelos estructurales, modelos predictivos de Inferencia causal: ¿Qué pasa si?
1 votos
Estoy de acuerdo con los dos comentarios anteriores (+1). También añadiría que se podría argumentar razonablemente que cuando se trata de observatorio datos, entonces es "muy deseable" aclarar por qué no se utilizan las puntuaciones de propensión (o cualquier otra metodología cuasi-experimental), es decir, por qué consideraríamos que una muestra de "conveniencia" es tan buena como la que se generaría según los principios del diseño experimental.
0 votos
Si es así, la mayor parte de la ciencia es un fracaso absoluto. (Casi cierto, en cualquier caso).
0 votos
Discusión relevante aquí stats.stackexchange.com/questions/481110/