Creo que esta es una muy buena pregunta; se llega al corazón de lo contencioso múltiples pruebas "problema" que asola los campos que van de la epidemiología a la econometría. Después de todo, ¿cómo puede saber si el significado que encontramos es espurio o no? ¿Qué tan cierto es que nuestro modelo multivariable?
En términos de los enfoques técnicos para compensar la probabilidad de que la publicación de variables de ruido, me gustaría estar de acuerdo con 'whuber' que el uso de parte de su muestra como datos de entrenamiento y el resto de los datos de prueba es una buena idea. Este es un enfoque que pone discutido en la literatura técnica, así que si usted se toma el tiempo que usted probablemente puede encontrar algunas buenas pautas de cuándo y cómo usarlo.
Pero a la huelga más directamente a la filosofía de múltiples pruebas, le sugiero que lea los artículos a los que hago referencia a continuación, algunos de los cuales apoyan la posición de que el ajuste de múltiples ensayos son a menudo perjudiciales (costos de energía), innecesaria, e incluso puede ser una falacia lógica. Yo por lo menos no lo aceptan automáticamente la afirmación de que nuestra capacidad para investigar un posible predictor es inexorablemente reducido por la investigación de otro. La familia de sabios Tipo 1 tasa de error puede aumentar a medida que se incluyen más predictores en un modelo dado, pero siempre que no vaya más allá de los límites de nuestro tamaño de la muestra, la probabilidad de error de Tipo 1 para cada individuo predictor es constante; y el control de la familia sabia de error no se ilumina la que se concreta la variable de ruido y que no es. Por supuesto, no son convincentes argumentos en contra también.
Así que, mientras usted limitar su lista de posibles variables a las que son plausibles (es decir, habría sabido de las vías para el resultado), el riesgo de falsedad ya está manejado bastante bien.
Sin embargo, me gustaría añadir que un predictiva del modelo no está tan preocupado con el "valor de verdad" de sus predictores como una causal de modelo; no puede haber una gran cantidad de confusión en el modelo, pero siempre que vamos a explicar en gran medida de la varianza, entonces, no nos preocupa demasiado. Esto hace que el trabajo sea más fácil, al menos en un sentido.
Saludos,
Brenden, Biostatistical Consultor
PS: usted puede querer hacer un cero-inflado de regresión de Poisson para los datos que usted describe, en lugar de dos regresiones.
- Perneger, T. V. ¿Qué hay de malo con la corrección de Bonferroni ajustes. BMJ 1998; 316 : 1236
- Cook, R. J. & Despedida, V. T. Multiplicidad de consideraciones en el diseño y análisis de ensayos clínicos. Diario de la Sociedad Real de Estadística, Serie a, 1996; Vol. 159, Nº 1 : 93-110
- Rothman, K. J. No es necesario realizar ajustes para comparaciones múltiples. Epidemiología De 1990; Vol. 1, Nº 1 : 43-46
- Marshall, J. R. Datos de dragado y pertinencia. Epidemiología De 1990; Vol. 1, Nº 1 : 5-7
- Groenlandia, S. & Robins, J. M. Empírico-Bayes de ajuste para comparaciones múltiples a veces son útiles. Epidemiología De 1991; Vol. 2, Nº 4 : 244-251