65 votos

Una discusión más definitiva sobre la selección de variables

Antecedentes

Estoy haciendo investigación clínica en medicina y he tomado varios cursos de estadística. Nunca he publicado un trabajo usando regresión lineal/logística y me gustaría hacer una selección de variables correctamente. La interpretabilidad es importante, así que no hay técnicas de aprendizaje de máquinas de lujo. He resumido mi comprensión de la selección de variables - ¿a alguien le importaría arrojar luz sobre cualquier concepto erróneo? He encontrado dos (1) similar (2) CV posts a este, pero no respondieron completamente a mis preocupaciones. ¡Cualquier pensamiento sería muy apreciado! Tengo tres preguntas principales al final.

Problema y Discusión

Mi típico problema de regresión/clasificación tiene 200-300 observaciones, una tasa de eventos adversos del 15% (si la clasificación), e información sobre 25 de las 40 variables que se ha afirmado que tienen un efecto "estadísticamente significativo" en la literatura o que tienen un sentido plausible por el conocimiento del dominio.

Puse "estadísticamente significativo" entre comillas, porque parece que todos y su madre usan regresión por pasos, pero Harrell (3) y Flom (4) no parece gustarles por varias buenas razones. Esto se apoya además en un Discusión del blog de Gelman (5). Parece que el único tiempo real en que el paso a paso es aceptable es si se trata de un análisis verdaderamente exploratorio, o si uno está interesado en la predicción y tiene un esquema de validación cruzada involucrado. Especialmente porque muchas comorbilidades médicas sufren de colinealidad Y los estudios sufren de un tamaño de muestra pequeño, mi entendimiento es que habrá muchos falsos positivos en la literatura; esto también hace que sea menos probable que confíe en la literatura para que se incluyan variables potenciales.

Otro enfoque popular es utilizar una serie de regresiones/asociaciones univariantes entre los predictores y la variable independiente como punto de partida. por debajo de un umbral determinado (digamos, p < 0,2). Esto parece incorrecto o al menos engañoso por las razones expuestas en este puesto de StackExchange (6).

Por último, un enfoque automatizado que parece popular en el aprendizaje automático es utilizar la penalización como L1 (Lasso), L2 (Ridge), o el combo L1+L2 (Red Elástica). Mi entendimiento es que estas no tienen las mismas interpretaciones fáciles que la OLS o la regresión logística.

Gelman + Hill proponen lo siguiente:

gelman

En mi curso de estadísticas, también recuerdo haber usado pruebas F o Análisis de Desviación para comparar modelos completos y anidados para hacer una selección modelo/variable variable por variable. Esto parece razonable, pero el ajuste de modelos anidados secuenciales sistemáticamente para encontrar las variables que causan la mayor caída de la desviación por df parece que podría automatizarse fácilmente (por lo que me preocupa un poco) y también parece que sufre problemas del orden en que se prueba la inclusión de las variables. Entiendo que esto también debería complementarse con la investigación de la multicolinealidad y las gráficas residuales (residual vs. pronosticada).

Preguntas:

  1. ¿Es el resumen de Gelman el camino a seguir? ¿Qué agregaría o cambiaría en su estrategia propuesta?

  2. Aparte de pensar puramente en las interacciones y transformaciones potenciales (que parecen muy propensas al sesgo/error/omisión), ¿hay otra forma de descubrir las potenciales? Multivariate adaptive regression spline (MARS) me fue recomendado, pero se me informó que las no linealidades/transformaciones no se traducen en las mismas variables en un modelo de regresión estándar.

  3. Supongamos que mi objetivo es muy simple: decir, "Me gustaría estimar la asociación de X1 sobre Y, sólo teniendo en cuenta X2". ¿Es adecuado simplemente hacer una regresión de Y ~ X1 + X2, informar del resultado, sin referencia a la capacidad de predicción real (como podría medirse por medio de medidas de validación cruzada RMSE o de precisión)? ¿Cambia esto dependiendo de la tasa de eventos o del tamaño de la muestra, o si R^2 es súper bajo (soy consciente de que R^2 no es bueno porque siempre se puede aumentar por sobreajuste)? En general, estoy más interesado en la inferencia/interpretación que en la optimización del poder de predicción.

Ejemplo de conclusiones:

  1. "El control para X2, X1 no se asoció de manera estadísticamente significativa con Y en relación al nivel de referencia de X1". (coeficiente de regresión logística)
  2. "X1 no fue un predictor estadísticamente significativo de Y ya que en el modelo la caída de la desviación no fue suficiente en relación con el cambio de df". (Análisis de la desviación)

¿Es siempre necesaria la validación cruzada? En cuyo caso, uno podría también querer hacer algún balance de las clases a través de SMOTE, muestreo, etc.

51voto

alexs77 Puntos 36

Andrew Gelman es definitivamente un nombre respetado en el mundo de la estadística. Sus principios se alinean estrechamente con algunas de las investigaciones de modelos causales que han sido hechas por otros "grandes nombres" en el campo. Pero creo que dado su interés en la investigación clínica, debería consultar otras fuentes.

Utilizo la palabra "causal" de forma poco precisa (al igual que otros) porque hay una fina línea que debemos trazar entre realizar "inferencias causales" a partir de datos de observación, y afirmar las relaciones causales entre las variables. Todos estamos de acuerdo en que los ECA son la principal forma de evaluar la causalidad. Rara vez ajustamos nada en esos ensayos según el supuesto de la aleatorización, con pocas excepciones ( Senn, 2004 ). Los estudios de observación tienen su importancia y utilidad ( Weiss, 1989 ) y el enfoque basado en contrafáctica para hacer inferencias a partir de datos de observación se acepta como un enfoque filosófico sólido para hacerlo ( Höfler, 2005 ). A menudo se aproxima mucho a la eficacia de uso medida en los ECAs ( Anglemyer, 2014 ).

Por lo tanto, me centraré en estudios a partir de datos de observación. Mi punto de desacuerdo con las recomendaciones de Gelman es: todos predictores en un modelo y sus postulado de una relación causal entre una única exposición de interés y un único resultado de interés debe especificarse apriori . Introducir y excluir covariables basadas en su relación entre un conjunto de hallazgos principales está induciendo en realidad un caso especial de la 'cuadrícula estadística de Munchausen' ( Martin, 1984 ). Algunas revistas (y la tendencia se está imponiendo) rechazarán de forma sumaria cualquier artículo que utilice la regresión por pasos para identificar un modelo final ( Babyak, 2004 ), y creo que el problema se ve de manera similar aquí.

La justificación de la inclusión y exclusión de las covariables en un modelo se examina en La Causalidad de la Perla de Judea ( Pearl, 2002 ). Es quizás uno de los mejores textos que existen para entender los principios de la inferencia estadística, la regresión y el ajuste multivariado. También prácticamente cualquier cosa de Sanders y Groenlandia es esclarecedor, en particular su discusión sobre confuso que lamentablemente se omite en esta lista de recomendaciones ( Groenlandia y otros. 1999 ). A determinadas covariables se les pueden asignar etiquetas basadas en una relación gráfica con un modelo causal. Designaciones como variables de pronóstico, de confusión o de precisión justifican su inclusión como covariables en los modelos estadísticos. Los mediadores, los colisionadores o las variables más allá de la vía causal deben ser omitidos. Las definiciones de estos términos se hacen rigurosas con muchos ejemplos en Causalidad.

Dados estos pequeños antecedentes, trataré los puntos uno por uno.

  1. Este es generalmente un enfoque sólido con una advertencia importante: estas variables NO deben ser mediadoras del resultado. Si, por ejemplo, usted está inspeccionando la relación entre fumar y la aptitud física, y se ajusta a la función pulmonar, eso es atenuar el efecto de fumar porque su impacto directo en la aptitud es el de reducir la función pulmonar. Esto debería NO se confunda con la confusión en la que la tercera variable es causal del predictor de interés Y el resultado de interés. Los confusores deben ser incluidos en los modelos. Además, el sobreajuste puede causar múltiples formas de sesgo en los análisis. Los mediadores y confusores se consideran como tales NO por lo que se encuentra en los análisis, sino por lo que USTED CREE como el sujeto-experto (SME). Si usted tiene 20 observaciones por variable o menos, o 20 observaciones por evento en análisis de tiempo-a-evento o logísticos, debe considerar los métodos condicionales en su lugar.

  2. Este es un excelente enfoque de ahorro de energía que no es tan complicado como el ajuste de la puntuación de propensión o SEM o el análisis factorial. Definitivamente recomendaría hacer esto siempre que sea posible.

  3. No estoy de acuerdo de todo corazón. El punto de ajustar otras variables en los análisis es crear estratos para los que se puedan hacer comparaciones. Especificar erróneamente las relaciones de confusión no conduce generalmente a análisis excesivamente sesgados, por lo que la confusión residual de los términos de interacción omitidos no es, en mi experiencia, un gran problema. Sin embargo, podría considerar los términos de interacción entre el predictor de interés y otras variables como un análisis post-hoc. Se trata de un procedimiento de generación de hipótesis que tiene por objeto refinar cualquier posible hallazgo (o falta de él) como a. potencialmente perteneciente a un subgrupo o b. que implique una interacción mecánica entre dos factores ambientales y/o genéticos.

  4. También estoy en desacuerdo con esto de todo corazón. No coincide con el enfoque basado en el análisis confirmatorio de la regresión. Usted es el SME. Los análisis deben ser informados por la PREGUNTA y no por los DATOS. Declare con confianza lo que cree que está sucediendo, basándose en una representación pictórica del modelo causal (usando un DAG y principios relacionados de Pearl et. al), luego elija los predictores para su modelo de interés, ajuste y discuta. Sólo como un análisis secundario debe considerar este enfoque, incluso en absoluto.

El papel del aprendizaje automático en todo esto es muy discutible. En general, el aprendizaje automático se centra en predicción y no inferencia que son enfoques distintos del análisis de datos. Tiene razón en que la interpretación de los efectos de la regresión penalizada no es fácil de interpretar para una comunidad no estadística, a diferencia de las estimaciones de una OLS, en la que los IC del 95% y las estimaciones de los coeficientes proporcionan una medida de la asociación.

La interpretación del coeficiente de un modelo OLS Y~X es sencilla: se trata de una pendiente, una diferencia esperada en Y que compara grupos que difieren en 1 unidad en X. En un modelo multivariado ajustado Y~X1+X2 lo modificamos como una pendiente condicional: es una diferencia esperada en Y que compara grupos que difieren en 1 unidad en X1 que tienen el mismo valor de X2. Geométricamente, el ajuste para X2 conduce a distintos estratos o "secciones transversales" de los tres espacios donde comparamos X1 con Y, luego promediamos los hallazgos sobre cada uno de esos estratos. En R, el coplot es muy útil para visualizar tales relaciones.

11voto

Loffen Puntos 163

Esta magnífica pregunta y la amplia respuesta de @AdamO son un buen ejemplo de cómo CV renueva regularmente mi fe en la humanidad. Me propongo aquí principalmente ofrecer algunas formas de apreciar esa respuesta (y la pregunta de la OP) en un contexto más amplio.

En primer lugar, me aventuro a afirmar que todos los consejos fiables sobre la práctica estadística son precaución en la naturaleza pro en lugar de las escrituras pre de las escrituras. El punto 3 de Gelman & Hill, por ejemplo, aunque se lee superficialmente como un consejo para hacer algo activamente ("considerar"), se entiende realmente mejor como advirtiendo contra fallando para considerar interacciones con efectos poderosos. Entendido intuitivamente como una apelación a la intuición relacionada con la elección de los términos más importantes en un (multivariante) La expansión de la serie de Taylor me parece inobjetable.

En segundo lugar, mientras que la OP está ocupada obteniendo una mejor educación que la mayoría de los bioestadísticos de doctorado (siguiendo las citaciones de AdamO), la OP podría también recoger la de David A. Friedman Modelos estadísticos e inferencia causal 1], donde se encontrará un desafío saludable a la presunción de que la regresión debe ser nuestra herramienta principal en la investigación clínica. Recomiendo especialmente el capítulo 3, "Modelos Estadísticos y Cuero para Calzado", que también está disponible en forma previamente publicada [2] aquí . (No dejes que el nombre del diario te apague; las lecciones clave son las investigaciones de John Snow sobre el cólera).

Finalmente -- y tal vez esto es realmente un corolario de Freedman -- debe mencionarse que las "conclusiones" de ejemplo ofrecidas por la OP pertenecerían en realidad a la Resultados de la sección del periódico. Sería muy saludable considerar lo antes posible cómo el verdadero Conclusiones y Discusión secciones del periódico estarían redactadas de manera que fueran accesibles para los médicos, los medios de comunicación e incluso para el creciente número de pacientes y sus defensores legos que trabajan heroicamente para leer la literatura médica. Mantener el enfoque en ese punto final será útil para dar forma al trabajo técnico del análisis estadístico, y mantenerlo basado en la realidad del mundo que pretende describir, y las necesidades que pretende atender.


  1. Freedman, David, David Collier, Jasjeet Singh Sekhon y Philip B. Stark. Modelos estadísticos e inferencia causal: Un diálogo con las ciencias sociales. Cambridge; Nueva York: Cambridge University Press, 2010.

  2. Freedman, David A. "Modelos estadísticos y cuero para zapatos". Metodología sociológica 21 (1991): 291-313. doi:10.2307/270939.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X