Veo dos algo no relacionado preguntas en esta pregunta.
- Es posible sacar fiable inferencia acerca de los coeficientes en los modelos de predicción, especialmente si tenemos un gran número de factores y el uso de alguna forma de selección de variables y/o regularización?
- Pueden los coeficientes en un modelo predictivo ser interpretado causalmente?
Mi breve respuesta a la primera pregunta es sí, es posible, pero no es sencillo hacer correctamente, y es un tema de intensa investigación actual.
A la segunda pregunta que me parece que el seguro de la respuesta es no, los coeficientes en un modelo predictivo no tienen, generalmente, una interpretación causal. Este punto debe quedar muy claro para colaboradores/clientes, que no pueden tener una fuerte formación en modelos causales.
La inferencia
Emmanuel Candes dio el 2017 Wald Conferencias en la Articulación de Estadística de las Reuniones de derecho Lo que está sucediendo en el Selectivo de la Inferencia?, que ofrece un gran punto de partida para el aprendizaje ¿cuáles son los desafíos, y lo que es el estado.
Un reto principal, especialmente cuando el número de factores es grande, es cómo calcular y reportar la incertidumbre correctamente, cuando el modelo/predictores han sido seleccionados por los datos.
Candes explica en la longitud de sus contribuciones (en su mayoría con Rina Peluquería) en la imitación de filtro, que es una muy buena idea para controlar la tasa de falso descubrimiento de los predictores seleccionados.
Otra cuestión es cómo fiable para calcular intervalos de confianza para los coeficientes. Candes toca este en su charla, pero ver el papel
Exacto post-selección de inferencia, con aplicación para el lazo por Lee en la al. para obtener más detalles, y ver también el documento Válido de la post-selección de inferencia de Berk et al.
El paquete de R Selectiva de Inferencia implementa estas ideas. Otro importante paquete de R para considerar es el idh, ver también el artículo de Alta dimensión de Inferencia: Intervalos de Confianza, los Valores de p y R-Software idh por Dezeure et al.
Tenga en cuenta que hay un no-trivial discusión en el selectivo de la inferencia acerca de lo que el parámetro de destino en realidad es! Es el (teórico) coeficiente en el modelo con los predictores seleccionados, o es el coeficiente en el modelo con todos los predictores incluidos? Lea el artículo de Berk et al. para algunos, la discusión sobre esta diferencia.
Yo normalmente investigar la incertidumbre de los casos denunciados y los coeficientes predictores seleccionados a través de simulaciones/bootstrapping (recordando incluir la variable completa del procedimiento de selección en el arranque), pero es posible que en realidad se requiere algo de trabajo para asegurarse de que, por ejemplo, intervalos de confianza bootstrap son apropiados, consulte Arranque de Lazo Estimadores por Chatterjee y Lahiri.
Debo decir que los retos antes mencionados son fundamentalmente frequentistic de la naturaleza. Ver, por ejemplo, Gelman el post de la inferencia Bayesiana soluciona totalmente el problema de las comparaciones múltiples para obtener una perspectiva Bayesiana.
La causalidad
Los modelos de regresión se han utilizado en la econometría y la epidemiología, para mencionar algunas áreas, para estimar los efectos causales a partir de datos observacionales. Esto, me parece, históricamente, no siempre se ha hecho con un cristal de la discusión de lo que en realidad constituye un efecto causal. La causalidad ha sido pensado justificado apelando a "no sin medir los factores de confusión" y otros similares propiedades de la instalación, en un intento de argumentar que los regresores incluidos son, precisamente, los que son necesarios para justificar una interpretación causal de los coeficientes estimados. Pero a menudo sin una clara conceptual o marco matemático para definir la causalidad y los efectos causales.
La historia de cómo se de la paradoja de Simpson ha sido tratada en la literatura estadística ilustra los problemas como los descritos por la Perla en su papel de la Comprensión de la Paradoja de Simpson.
Lo que es claro para mí es que la causalidad es un concepto más allá de un modelo probabilístico, y esto se puede formalizar el uso de frameworks como hipótesis, los modelos de ecuaciones estructurales o modelos gráficos (Dag). Estos no son ajenos marcos, pero ofrecen ligeramente diferentes conceptos y lenguajes para introducir los parámetros fundamentales de interés: los efectos causales.
En algunas situaciones puede ser posible interpretar los coeficientes de predicción (regresión) modelo de efectos causales, pero yo diría que es poco probable que sea el caso si el modelo está optimizado para la puramente predictivo del rendimiento de un gran número de predictores potenciales utilizando los datos de observación.
La próxima Inferencia Causal Libro de Hernán y Robins es un gran lugar para aprender acerca de los modelos causales. La parte II del libro se ocupa específicamente con el uso de modelos para la inferencia causal.
Los efectos causales a veces puede ser estimado utilizando modelos de predicción, pero puede requerir un poco de ingenio. Inverso de la probabilidad de ponderación se basa en un modelo predictivo de la probabilidad de pesos, como Hernán y Robins describir. El reciente documento de la inferencia Causal mediante el uso de invariantes de predicción: identificación y los intervalos de confianza por
Peters, Bühlmann y Meinshausen se basa en el modelo causal de ser invariantes bajo diferentes (no especificado) de las intervenciones, mientras que los no-causal de las asociaciones no están.
En cualquier caso, me gustaría aconsejaros en contra descuidado interpretaciones de (regresión) de los coeficientes como los efectos causales. Si los efectos causales son de interés, esto debe ser tomado en serio, y métodos apropiados deben ser empleados para estimar los efectos de interés.