Si un equipo de investigadores realizar múltiples (hipótesis) pruebas sobre un conjunto de datos dado, hay un volumen de literatura afirmar que se debe utilizar algún tipo de corrección para pruebas múltiples (Bonferroni, etc), incluso si las pruebas son independientes. Mi pregunta es esta: ¿esta misma lógica se aplica a varios equipos de pruebas de hipótesis sobre el mismo conjunto de datos? Dicho de otra manera, ¿cuál es la barrera para la familia de sabios cálculos de errores? Deben los investigadores se limitan a la reutilización de conjuntos de datos para la exploración sólo?
Respuestas
¿Demasiados anuncios?Yo estoy totalmente en desacuerdo con @fcoppens salto desde el reconocimiento de la importancia de las múltiples hipótesis de corrección dentro de una misma investigación para que afirma que "Por el mismo razonamiento, el mismo aplica en el caso de varios equipos realizar estas pruebas."
No hay duda de que el más estudios se llevan a cabo y la más hipótesis se ponen a prueba, la más errores de Tipo I se va a producir. Pero creo que hay una confusión sobre el significado de "familia-sabio error" tarifas y cómo se aplican en la realidad de los trabajos científicos.
En primer lugar, recordar que varias correcciones de pruebas normalmente se levantó en post-hoc de comparaciones para la que no había pre-formulado hipótesis. No es del todo claro que la misma correcciones son necesarias cuando hay un pequeño conjunto predefinido de hipótesis.
Segundo, la "verdad científica" de una publicación individual no depende de la verdad de cada instrucción individual dentro de la publicación. Un bien diseñado estudio se aproxima a un general científico (en oposición a la estadística) hipótesis desde muchas perspectivas diferentes, y reúne a los diferentes tipos de resultados para evaluar la científica de la hipótesis. Cada resultado individual puede ser evaluado por una prueba estadística.
Por el argumento de la @fcoppens sin embargo, si incluso uno de los individuales de las pruebas estadísticas hace que un error de Tipo I, a continuación, que conduce a una "falsa creencia de 'verdad científica'". Esto es simplemente incorrecto.
La "verdad científica" de los científicos hipótesis en una publicación, en contraposición a la validez de un individuo de una prueba estadística, generalmente proviene de una combinación de diferentes tipos de evidencia. La insistencia en varios tipos de pruebas hace que la validez de un científico hipótesis robusto para el individuo errores que inevitablemente se producen. Cuando miro hacia atrás en mi 50 publicaciones científicas, creo que sería difícil encontrar a alguno que sigue siendo tan impecable en cada detalle, como @fcoppens parece insistir en la. Sin embargo, estoy igualmente difícil encontrar alguna donde el científico hipótesis fue francamente mal. Incompleta, tal vez; de hecho irrelevante por los desarrollos posteriores en el campo, sin duda. Pero no "mal" en el contexto del estado de los conocimientos científicos de la época.
Tercero, el argumento pasa por alto los costos de producción de Tipo II errores. Un error de tipo II podría cerrar todo los campos de la promesa de la investigación científica. Si las recomendaciones de @fcoppens iban a ser seguido, el error de Tipo II que las tasas de escalar de forma masiva, en detrimento de la empresa científica.
Por último, la recomendación es imposible de seguir en la práctica. Si se analiza un conjunto de datos disponibles públicamente, yo no tienen forma de saber si alguien lo ha utilizado, o para qué propósito. No tengo manera de corregir por la de cualquiera pruebas de hipótesis. Y como defiendo por encima, yo no tengo por qué.
El "múltiples pruebas" corrección es necesaria siempre que 'inflar el error de tipo I': por ejemplo, si se realizan dos pruebas, cada una con un nivel de confianza $\alpha=5\%$, y para el primero que prueba el valor null $H_0^{(1)}$ frente a la alternativa $H_1^{(1)}$ y la segunda hipótesis de $H_0^{(2)}$ frente al $H_1^{(2)}$.
Entonces sabemos que el error de tipo I, por ejemplo, la primera hipótesis es la probabilidad de que falsamente rechazar $H_0^{(1)}$ e es $\alpha=5\%$.
Si he de realizar las dos pruebas, entonces la probabilidad de que al menos uno de los dos es falsamente rechazado es igual a 1 menos la probabilidad de que ambas son aceptadas por lo $1 - (1-\alpha)^2$, $\alpha=5\%$ es igual a $9.75\%$, por lo que el tipo de error de tener al menos uno de falso rechazo es casi se ha duplicado !
En las pruebas de hipótesis estadísticas sólo se puede encontrar evidencia estadística para la hipótesis alternativa mediante el rechazo de la nula, rechazar la nula nos permite concluir que existe evidencia a favor de la hipótesis alternativa. (ver también Lo que sigue si no podemos rechazar la hipótesis nula?).
Así que un falso rechazo de la nula nos da la falsa evidencia así una falsa creencia de la "verdad científica". Esta es la razón por la que este tipo me la inflación (la casi duplicación del error de tipo I) ha de ser evitado; los mayores errores de tipo I implica más falsas creencias de que algo está científicamente probado. Por lo tanto la gente de "control", el tipo de Ierror en un familywise nivel.
Si hay un equipo de investigadores que lleva a cabo varias pruebas, a continuación, cada vez que se rechaza la hipótesis nula de que a la conclusión de que se han encontrado statitiscal la evidencia de una verdad científica. Sin embargo, por lo anterior, muchos más de los que $5\%$ de estas conclusiones son un falso creer que de "verdad científica".
Por el mismo razonamiento, el mismo aplica en el caso de varios equipos realizar estas pruebas (en los mismos datos).
Obviamente, las conclusiones anteriores sólo si los equipos de trabajo en los mismos datos. ¿Qué es diferente cuando se trabaja en las diferentes muestras ?
Para explicar esto, vamos a tomar un simple y muy poco realista ejemplo. Nuestra hipótesis nula es que una población tiene una distribución normal, con conocidos $\sigma$ y los nulos los estados que $H_0: \mu = 0$ contra $H_1: \mu \ne 0$. Tomemos el nivel de significación $\alpha=5\%$.
Nuestra muestra ('datos') es solo una observación, por lo que vamos a rechazar la nula cuando la observación de $o$ es mayor que $1.96\sigma$ o más pequeña de lo $-1.96\sigma$.
Hacemos un error de tipo I con una probabilidad de $5\%$ porque puede ser que rechazamos $H_0$ sólo por casualidad, de hecho, si $H_0$ es true (por lo que la población es normal y $\mu=0$), entonces existe (con $H_0$ verdadero) la posibilidad de que $o \not \in [-1.96\sigma;1.96\sigma$]. Así que incluso si $H_0$ es verdadero, entonces hay una posibilidad que tenemos mala suerte con los datos.
Por lo que si utilizamos los mismos datos, podría ser que las conclusiones de las pruebas se basan en una muestra en la que se dibuja con la "mala oportunidad". Con otra muestra que el contexto es diferente.