8 votos

Inferencia y modelos predictivos

Algunas personas en mi línea de trabajo está interesado en los coeficientes de que los resultados de desarrollo de predicción de los modelos de regresión(prm).

Soy un poco reacio a utilizar estos coeficientes para explicar un efecto predictor puede o no puede tener en la respuesta. Lo que a veces es útil es la variable de importancia, aunque esto parece ser de menor interés.

Me siento como la diferencia entre la predicción y el análisis causal no está clara para algunas de las personas que me informe con mis modelos.

Mi pregunta es:

  • es de fiar el uso de coeficientes de un prm para la inferencia?

El prm es normalmente yo uso en el trabajo son las siguientes:

  1. Elastic Net/LASSO - Gaussiano y logit

  2. Impulsado GAMLSS

Mucho me está diciendo que el coeficiente son muy poco fiables y no debe ser considerado, especialmente para modelos de gran tamaño. Y si hay un gran interés por los efectos causales, entonces no debería ser una prioridad para hacer otros modelos causales.

PS: mi departamento es conservador y antiguo de la moda con un montón de gente de edad(sin ofender) y muchos disfrutan trabajando con SAS(ofensa)

5voto

Nathan Long Puntos 30303

Veo dos algo no relacionado preguntas en esta pregunta.

  • Es posible sacar fiable inferencia acerca de los coeficientes en los modelos de predicción, especialmente si tenemos un gran número de factores y el uso de alguna forma de selección de variables y/o regularización?
  • Pueden los coeficientes en un modelo predictivo ser interpretado causalmente?

Mi breve respuesta a la primera pregunta es , es posible, pero no es sencillo hacer correctamente, y es un tema de intensa investigación actual.

A la segunda pregunta que me parece que el seguro de la respuesta es no, los coeficientes en un modelo predictivo no tienen, generalmente, una interpretación causal. Este punto debe quedar muy claro para colaboradores/clientes, que no pueden tener una fuerte formación en modelos causales.

La inferencia

Emmanuel Candes dio el 2017 Wald Conferencias en la Articulación de Estadística de las Reuniones de derecho Lo que está sucediendo en el Selectivo de la Inferencia?, que ofrece un gran punto de partida para el aprendizaje ¿cuáles son los desafíos, y lo que es el estado.

Un reto principal, especialmente cuando el número de factores es grande, es cómo calcular y reportar la incertidumbre correctamente, cuando el modelo/predictores han sido seleccionados por los datos.

Candes explica en la longitud de sus contribuciones (en su mayoría con Rina Peluquería) en la imitación de filtro, que es una muy buena idea para controlar la tasa de falso descubrimiento de los predictores seleccionados.

Otra cuestión es cómo fiable para calcular intervalos de confianza para los coeficientes. Candes toca este en su charla, pero ver el papel Exacto post-selección de inferencia, con aplicación para el lazo por Lee en la al. para obtener más detalles, y ver también el documento Válido de la post-selección de inferencia de Berk et al.

El paquete de R Selectiva de Inferencia implementa estas ideas. Otro importante paquete de R para considerar es el idh, ver también el artículo de Alta dimensión de Inferencia: Intervalos de Confianza, los Valores de p y R-Software idh por Dezeure et al.

Tenga en cuenta que hay un no-trivial discusión en el selectivo de la inferencia acerca de lo que el parámetro de destino en realidad es! Es el (teórico) coeficiente en el modelo con los predictores seleccionados, o es el coeficiente en el modelo con todos los predictores incluidos? Lea el artículo de Berk et al. para algunos, la discusión sobre esta diferencia.

Yo normalmente investigar la incertidumbre de los casos denunciados y los coeficientes predictores seleccionados a través de simulaciones/bootstrapping (recordando incluir la variable completa del procedimiento de selección en el arranque), pero es posible que en realidad se requiere algo de trabajo para asegurarse de que, por ejemplo, intervalos de confianza bootstrap son apropiados, consulte Arranque de Lazo Estimadores por Chatterjee y Lahiri.

Debo decir que los retos antes mencionados son fundamentalmente frequentistic de la naturaleza. Ver, por ejemplo, Gelman el post de la inferencia Bayesiana soluciona totalmente el problema de las comparaciones múltiples para obtener una perspectiva Bayesiana.

La causalidad

Los modelos de regresión se han utilizado en la econometría y la epidemiología, para mencionar algunas áreas, para estimar los efectos causales a partir de datos observacionales. Esto, me parece, históricamente, no siempre se ha hecho con un cristal de la discusión de lo que en realidad constituye un efecto causal. La causalidad ha sido pensado justificado apelando a "no sin medir los factores de confusión" y otros similares propiedades de la instalación, en un intento de argumentar que los regresores incluidos son, precisamente, los que son necesarios para justificar una interpretación causal de los coeficientes estimados. Pero a menudo sin una clara conceptual o marco matemático para definir la causalidad y los efectos causales.

La historia de cómo se de la paradoja de Simpson ha sido tratada en la literatura estadística ilustra los problemas como los descritos por la Perla en su papel de la Comprensión de la Paradoja de Simpson.

Lo que es claro para mí es que la causalidad es un concepto más allá de un modelo probabilístico, y esto se puede formalizar el uso de frameworks como hipótesis, los modelos de ecuaciones estructurales o modelos gráficos (Dag). Estos no son ajenos marcos, pero ofrecen ligeramente diferentes conceptos y lenguajes para introducir los parámetros fundamentales de interés: los efectos causales.

En algunas situaciones puede ser posible interpretar los coeficientes de predicción (regresión) modelo de efectos causales, pero yo diría que es poco probable que sea el caso si el modelo está optimizado para la puramente predictivo del rendimiento de un gran número de predictores potenciales utilizando los datos de observación.

La próxima Inferencia Causal Libro de Hernán y Robins es un gran lugar para aprender acerca de los modelos causales. La parte II del libro se ocupa específicamente con el uso de modelos para la inferencia causal.

Los efectos causales a veces puede ser estimado utilizando modelos de predicción, pero puede requerir un poco de ingenio. Inverso de la probabilidad de ponderación se basa en un modelo predictivo de la probabilidad de pesos, como Hernán y Robins describir. El reciente documento de la inferencia Causal mediante el uso de invariantes de predicción: identificación y los intervalos de confianza por Peters, Bühlmann y Meinshausen se basa en el modelo causal de ser invariantes bajo diferentes (no especificado) de las intervenciones, mientras que los no-causal de las asociaciones no están.

En cualquier caso, me gustaría aconsejaros en contra descuidado interpretaciones de (regresión) de los coeficientes como los efectos causales. Si los efectos causales son de interés, esto debe ser tomado en serio, y métodos apropiados deben ser empleados para estimar los efectos de interés.

3voto

Robert de Graaf Puntos 321

Frank Harrell, en su 'modelos de Regresión de Estrategias" (2015) ofrece una gama de posibles estrategias de modelado (sección 4.12, si usted es capaz de obtener una copia), algunos de los cuales pueden ser considerados burlón ("desarrollar un cuadro negro modelo que funciona mal y es difícil de interpretar'), pero luego él se va a desarrollar una estrategia para los modelos de regresión que proporcionan predicciones precisas, y, a continuación, explica cómo este modelo puede ser mejorado para permitir que precisa el efecto de la estimación, comentando estimación de los efectos de estos modelos debe implicar la predicción precisa de la respuesta general de valores". Efectivamente parece dudoso que usted puede tener una estimación precisa del valor de un indicador del tamaño del efecto si usted no tiene un modelo que predice con precisión su objetivo.

Harrell señala algunas consideraciones necesarias para asegurar que un modelo de proporcionar una buena precisión puede proporcionar buenas estimaciones de los efectos de los predictores. Por ejemplo, uno es de estricta atención a los efectos de la interacción. Otro es el papel de la imputación de los datos faltantes, especialmente si una variable cuyo tamaño de efecto es una alta prioridad tiene muchos valores que faltan por ejemplo, podría ser sensible a la imputación de los valores faltantes si la exactitud del modelo es el único objetivo, pero no distingue si estima que el efecto particular es la meta.

Al mismo tiempo, lo anterior implica que es posible alcanzar un nivel de precisión con respecto a la meta sin haber logrado estimaciones precisas de cada predictor del efecto. También mencionar el análisis causal, y uno de los comentaristas con razón observa que se puede lograr estimaciones precisas de las correlaciones sin con precisión la comprensión de las relaciones causales.

En general, se empieza a ver como una jerarquía, donde un fuerte modelo predictivo constituye la base para la estimación precisa de los efectos de los predictores, y predecir las estimaciones de los efectos de los predictores a continuación, podría ser el comienzo de un análisis de la relación de causalidad. Entonces la respuesta a tu pregunta principal es " sí, es legítimo el uso de los coeficientes de un modelo predictivo para la inferencia, bajo la condición de que el modelo ha sido analizado cuidadosamente para asegurar la legitimidad de los efectos de las estimaciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X