67 votos

¿Es ajustar los valores de p en una regresión múltiple para comparaciones múltiples una buena idea?

Vamos a suponer que son una ciencia social investigador/econometra tratando de encontrar los relevantes predictores de la demanda de un servicio. Tiene 2 resultado/dependiente de variables que describen la demanda (mediante el servicio de sí/no, y el número de ocasiones). Usted tiene 10 predictor independiente de las variables que podrían explicar teóricamente la demanda (por ejemplo, edad, sexo, nivel de ingresos, el precio, la raza, etc). Ejecución independiente de dos regresiones múltiples producirá 20 coeficientes de las estimaciones y sus p-valores. Con bastante independiente de las variables en las regresiones que, tarde o temprano encontrar al menos una variable con una correlación estadísticamente significativa entre las variables dependientes e independientes.

Mi pregunta: ¿es una buena idea para corregir los valores de p para múltiples pruebas si quiero incluir todas las variables independientes de la regresión? Cualquier referencia a un trabajo previo se agradece mucho.

55voto

DavLink Puntos 101

Parece que su pregunta más general se aborda el problema de la identificación de buenos predictores. En este caso, usted debe considerar el uso de algún tipo de penalizada de regresión (métodos de tratar con variables o característica de la selección también son pertinentes), con, por ejemplo, L1, L2 (o una combinación de los mismos, el llamado elasticnet) sanciones (buscar preguntas relacionadas con este sitio, o el R penalizado y elasticnet paquete, entre otros).

Ahora, sobre la corrección de la p-valores para los coeficientes de regresión (o, equivalentemente, tu los coeficientes de correlación parcial) para proteger contra el exceso de optimismo (por ejemplo, con la corrección de Bonferroni o, mejor, paso a paso, métodos), parece que esto sólo sería pertinente si usted está considerando un modelo y buscar aquellos predictores que contribuyen a que una parte significativa de la varianza explicada, es decir, si no se realizan de selección de modelo (con la selección paso a paso, jerárquicos o de prueba). Este artículo puede ser un buen comienzo: de Bonferroni Ajustes en las Pruebas para los Coeficientes de Regresión. Ser conscientes de que dicha corrección no la protegerá de la multicolinealidad problema, que afecta a la reportada p-valores.

Dado a sus datos, me gustaría recomendar el uso de algún tipo de modelo iterativo de técnicas de selección. En R por ejemplo, el stepAIC función permite realizar paso a paso el modelo de selección exacta de la AIC. También se puede estimar la importancia relativa de los predictores con base en su contribución a $R^2$ el uso de boostrap (véase el relaimpo paquete). Creo que la presentación de informes del tamaño del efecto de la medida o % de varianza explicada son más informativos que el p-valor, especialmente en una confirmación del modelo.

Cabe señalar que, paso a paso enfoques tienen también sus inconvenientes (por ejemplo, pruebas de Wald no están adaptados para la condicional hipótesis como la inducida por el procedimiento paso a paso), o según lo indicado por Frank Harrell en R de correo, "paso a paso variable de selección basado en el AIC tiene todos los problemas de selección de variables paso a paso basado en el P-valores. AIC es simplemente una reafirmación de la P-Valor" (pero AIC sigue siendo útil si el conjunto de predictores ya está definido); una pregunta relacionada -- Es una variable significativa en un modelo de regresión lineal? -- planteado interesantes comentarios (@Rob, entre otros) sobre el uso de AIC para la selección de variables. Añado un par de referencias al final (incluidos los documentos amablemente proporcionados por @Stephan); también hay un montón de otras referencias en P. Media.

Frank Harrell autor de un libro sobre modelos de Regresión de Estrategia que incluye una gran cantidad de discusión y consejos en torno a este problema (§4.3, pp 56-60). Él también desarrolló eficiente de R rutinas para lidiar con los modelos lineales generalizados (Véase el Diseño o rms de paquetes). Entonces, yo creo que definitivamente tiene que tener una mirada en ella (sus folletos están disponibles en su página de inicio).

Referencias

  1. Whittingham, MJ, Stephens, P, Bradbury, RB, y Freckleton, RP (2006). ¿Por qué todavía uso paso a paso de la modelización en la ecología y el comportamiento? Journal of Animal Ecology, 75, 1182-1189.
  2. Austin, PC (2008). Bootstrap de selección de modelo tuvo un rendimiento similar para la selección de los auténticos y el ruido de las variables comparadas para mantener la variable de eliminación: un estudio de simulación. Revista de Epidemiología Clínica, 61(10), 1009-1017.
  3. Austin, PC y Tu, JV (2004). Automatizado de selección de variables de los métodos de regresión logística producido inestable modelos para la predicción de infarto agudo de miocardio mortalidad. Revista de Epidemiología Clínica, 57, 1138-1146.
  4. Groenlandia, S (1994). De regresión jerárquica para epidemiológica del análisis de múltiples exposiciones. Perspectivas De Salud Ambiental, 102(Supl 8), 33-39.
  5. Groenlandia, S (2008). Comparaciones múltiples y de la asociación de selección en general de epidemiología. Revista internacional de Epidemiología, 37(3), 430-434.
  6. Beyene, J, Atenafu, por ejemplo, Hamid, JS, A, T, y Cantada L (2009). La determinación de la importancia relativa de las variables en el desarrollo y validación de modelos predictivos. BMC Medical Metodología de la Investigación, 9, 64.
  7. Bursac, Z, Gauss, CH, Williams, DK, e Hosmer, DW (2008). Propósito de la selección de variables en la regresión logística. Código fuente para la Biología y la Medicina, 3, 17.
  8. Brombin, C, Finos, L, y Salmaso, L (2007). El ajuste gradual de los valores de p en los modelos lineales generalizados. Conferencia internacional sobre la Comparación Múltiple de los Procedimientos. -- ver step.adj() en la R someMTP paquete.
  9. Wiegand, RE (2010). El rendimiento de la utilización de múltiples gradual de los algoritmos de selección de variables. La estadística en Medicina, 29(15), 1647-1659.
  10. Lunas KG, Donders AR, Steyerberg EW, y Harrell FE (2004). Penalizado Estimación de Máxima Verosimilitud para predecir los resultados binarios. Revista de Epidemiología Clínica, 57(12), 1262-1270.
  11. Tibshirani, R (1996). La regresión de la contracción y la selección a través del lazo. Diario de La Sociedad Real de Estadística B, 58(1), 267-288.
  12. Efron, B, Hastie, T, Johnstone, yo, y Tibshirani, R (2004). Menos Ángulo De Regresión. Anales de Estadísticas, 32(2), 407-499.
  13. Flom, PL y Cassell, DL (2007). Detener paso a paso: ¿por Qué paso a paso y una selección similar métodos son malos, y lo que usted debe usar. NESUG de 2007 Procedimientos.
  14. Shtatland, E. S., Caín, E., y Barton, M. B. (2001). Los peligros del paso a paso de regresión logística y cómo escapar de ellos, utilizando los criterios de información y la Salida del Sistema de Entrega. SUGI 26 de Procedimientos (p 222-226).

30voto

jldugger Puntos 7490

En gran medida, usted puede hacer lo que quiera siempre que usted mantenga fuera de suficientes datos al azar para que la prueba sea cual sea el modelo que usted viene para arriba con base en el comprobante de datos. Un 50% de split puede ser una buena idea. Sí, se pierde un poco de capacidad para detectar relaciones, pero lo que la ganancia es enorme; es decir, la capacidad para replicar su trabajo antes de su publicación. No importa cuán sofisticado de las técnicas estadísticas que hacer valer, usted será impresionado por la cantidad "significativa" de los predictores de viento de hasta ser completamente inútil cuando se aplica a la confirmación de datos.

Tenga en cuenta, también, que "relevantes" para la predicción significa más que un bajo p-valor. Que, después de todo, sólo significa que es probable que una relación se encuentra en este particular conjunto de datos no es debida al azar. Para la predicción es en realidad más importante para encontrar las variables que ejercen una influencia sustancial en el predictand (sin sobre-ajuste del modelo); es decir, encontrar las variables que son propensas a ser "real" y, cuando varía a lo largo de un rango razonable de los valores (no sólo los valores que pueda ocurrir en su ejemplo!), causa el predictand para variar notablemente. Cuando usted tiene retención de los datos para confirmar un modelo, puede ser más cómodo provisionalmente de retención marginalmente significativo de variables que no pueden tener bajos niveles de p-valores.

Por estas razones (y de la construcción en chl fina de respuesta), aunque he encontrado gradual de los modelos, AIC comparaciones y correcciones de Bonferroni bastante útil (especialmente con cientos o miles de posibles predictores en juego), estos no deben ser los únicos factores determinantes de las variables que entran en el modelo. No perder de vista la orientación ofrecida por la teoría, ya sea: variables que tienen una fuerte justificación teórica para estar en un modelo generalmente deben mantenerse, incluso cuando éstas no son significativas, a condición de no crear mal condicionado ecuaciones (por ejemplo, la colinealidad).

NOTA: Después de que se han asentado en un modelo y comprobado su utilidad con la retención de los datos, está bien para recombinar el comprobante de datos con la retención de los datos para la estimación final. Por lo tanto, no se pierde nada en términos de la precisión con la que se puede estimar el modelo de coeficientes.

22voto

ManiacZX Puntos 1461

Creo que esta es una muy buena pregunta; se llega al corazón de lo contencioso múltiples pruebas "problema" que asola los campos que van de la epidemiología a la econometría. Después de todo, ¿cómo puede saber si el significado que encontramos es espurio o no? ¿Qué tan cierto es que nuestro modelo multivariable?

En términos de los enfoques técnicos para compensar la probabilidad de que la publicación de variables de ruido, me gustaría estar de acuerdo con 'whuber' que el uso de parte de su muestra como datos de entrenamiento y el resto de los datos de prueba es una buena idea. Este es un enfoque que pone discutido en la literatura técnica, así que si usted se toma el tiempo que usted probablemente puede encontrar algunas buenas pautas de cuándo y cómo usarlo.

Pero a la huelga más directamente a la filosofía de múltiples pruebas, le sugiero que lea los artículos a los que hago referencia a continuación, algunos de los cuales apoyan la posición de que el ajuste de múltiples ensayos son a menudo perjudiciales (costos de energía), innecesaria, e incluso puede ser una falacia lógica. Yo por lo menos no lo aceptan automáticamente la afirmación de que nuestra capacidad para investigar un posible predictor es inexorablemente reducido por la investigación de otro. La familia de sabios Tipo 1 tasa de error puede aumentar a medida que se incluyen más predictores en un modelo dado, pero siempre que no vaya más allá de los límites de nuestro tamaño de la muestra, la probabilidad de error de Tipo 1 para cada individuo predictor es constante; y el control de la familia sabia de error no se ilumina la que se concreta la variable de ruido y que no es. Por supuesto, no son convincentes argumentos en contra también.

Así que, mientras usted limitar su lista de posibles variables a las que son plausibles (es decir, habría sabido de las vías para el resultado), el riesgo de falsedad ya está manejado bastante bien.

Sin embargo, me gustaría añadir que un predictiva del modelo no está tan preocupado con el "valor de verdad" de sus predictores como una causal de modelo; no puede haber una gran cantidad de confusión en el modelo, pero siempre que vamos a explicar en gran medida de la varianza, entonces, no nos preocupa demasiado. Esto hace que el trabajo sea más fácil, al menos en un sentido.

Saludos,

Brenden, Biostatistical Consultor

PS: usted puede querer hacer un cero-inflado de regresión de Poisson para los datos que usted describe, en lugar de dos regresiones.

  1. Perneger, T. V. ¿Qué hay de malo con la corrección de Bonferroni ajustes. BMJ 1998; 316 : 1236
  2. Cook, R. J. & Despedida, V. T. Multiplicidad de consideraciones en el diseño y análisis de ensayos clínicos. Diario de la Sociedad Real de Estadística, Serie a, 1996; Vol. 159, Nº 1 : 93-110
  3. Rothman, K. J. No es necesario realizar ajustes para comparaciones múltiples. Epidemiología De 1990; Vol. 1, Nº 1 : 43-46
  4. Marshall, J. R. Datos de dragado y pertinencia. Epidemiología De 1990; Vol. 1, Nº 1 : 5-7
  5. Groenlandia, S. & Robins, J. M. Empírico-Bayes de ajuste para comparaciones múltiples a veces son útiles. Epidemiología De 1991; Vol. 2, Nº 4 : 244-251

8voto

Sean Hanley Puntos 2428

Hay buenas respuestas aquí. Permítanme añadir un par de pequeños puntos que no veo cubiertos en otros lugares.

En primer lugar, ¿cuál es la naturaleza de sus variables de respuesta? Más específicamente, se entendieron como relacionados entre sí? Sólo debe hacer a separar los dos regresiones múltiples si se entiende a ser independiente (en teoría) / si los residuos de los dos modelos son independientes (empíricamente). De lo contrario, usted debería considerar la posibilidad de una regresión multivariante. ('Multivariante' significa >1 variable de respuesta; "múltiples" significa >1 predictor de la variable.)

La otra cosa a tener en cuenta es que el modelo viene con un global de $F$ prueba, que es, simultáneamente, la prueba de todos los predictores. Es posible que el global de la prueba es "no significativo", mientras algunos de los predictores individuales parecen ser "significativo". Que debe darle pausa, si se produce. Por otro lado, si la prueba global sugiere que al menos algunos de los predictores están relacionados, que le da una cierta protección contra el problema de las comparaciones múltiples (es decir, se sugiere que no todos los valores nulos son verdaderas).

0voto

simmosn Puntos 304

Usted puede hacer una aparentemente no relacionados de regresión y el uso de una prueba de F. Pon tus datos en un formulario como este:

Out1 1 P11 P12 0  0   0
Out2 0 0   0   1  P21 P22

de modo que los predictores de su primer resultado que tienen sus valores cuando el resultado es la y variable y 0 en caso contrario y viceversa. Así que tu y es una lista de ambos resultados. P11 y P12 son los dos predictores para el primer resultado y P21 y P22 son los dos predictores para el segundo resultado. Si el sexo, dicen, es un predictor de ambos resultados, su uso para predecir el resultado 1 debe ser en una variable independiente/columna cuando la predicción de resultados 2. Esto permite que la regresión tienen diferentes pendientes/impactos por sexo para cada uno de los resultados.

En este marco, puede utilizar el estándar de F procedimientos de prueba.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X