He estado leyendo en $p$-valores, error de tipo 1 tasas de interés, niveles de significación, el cálculo de la potencia, los tamaños del efecto y el de Fisher vs Neyman-Pearson para el debate. Esto me ha dejado la sensación de un poco abrumado. Pido disculpas por la pared de texto, pero sentí que era necesario proporcionar una visión general de mi actual comprensión de estos conceptos, antes de que me mudé a mi actual preguntas.
De lo que he reunido, una $p$-valor es simplemente una medida de la sorpresa, la probabilidad de obtener un resultado al menos tan extremo, dado que la hipótesis nula es verdadera. Fisher originalmente destinado a ser una medida continua.
En el Neyman-Pearson marco, se selecciona un nivel de significación de antemano y utilizar esto como una (arbitrario) punto de corte. El nivel de significación es igual a la de tipo 1 de la tasa de error. Es definido por el largo plazo de la frecuencia, es decir, si se va a repetir un experimento 1000 veces y la hipótesis nula es verdadera, cerca de 50 de los experimentos resultado en un significativo efecto, debido a la variabilidad del muestreo. Al elegir un nivel de significación, estamos protegiendo a nosotros mismos en contra de estos falsos positivos con una cierta probabilidad. $P$-valores que tradicionalmente no aparecen en este marco.
Si nos encontramos con un $p$-valor de 0.01 esto no significa que el tipo 1 de la tasa de error es de 0.01, el error de tipo 1 se indica a priori. Creo que este es uno de los principales argumentos en Fisher vs N-P debate, porque el $p$-los valores son presentados a menudo como 0.05*, 0.01**, 0.001***. Esto podría inducir a error a las personas a decir que el efecto es significativo en un determinado $p$-valor, en lugar de en un significado determinado valor.
También me doy cuenta de que el $p$-valor es una función del tamaño de la muestra. Por lo tanto, no puede ser utilizado como una medida absoluta. Un pequeño $p$-valor podría apuntar a un pequeño, sin relevante efecto en una muestra de gran experimento. Para contrarrestar esto, es importante llevar a cabo una alimentación/cálculo del tamaño del efecto al determinar el tamaño de la muestra para el experimento. $P$-valores que nos digan si hay un efecto, no es lo grande que es. Ver Sullivan 2012.
Mi pregunta: ¿Cómo puedo conciliar el hecho de que la $p$-valor es una medida de la sorpresa (el más pequeño = más convincente), mientras que al mismo tiempo no puede ser visto como una medida absoluta?
Lo que yo estoy confundido acerca de, es la siguiente: ¿se puede tener más confianza en un pequeño $p$-valor que una grande? En el Fisherian sentido, yo diría que sí, estamos más sorprendidos. En el N-P marco, la elección de un menor nivel de significación implicaría estamos protegiendo a nosotros mismos más fuertemente en contra de los falsos positivos.
Pero, por otro lado, $p$-valores dependen del tamaño de la muestra. Ellos no son una medida absoluta. Así que no podemos simplemente decir 0.001593 es más importante que 0.0439. Sin embargo, esto lo que estaría implicado en Fisher marco: hemos de ser más sorprendió a tal extremo valor. Incluso hay discusión sobre el término altamente significativas, siendo un nombre inapropiado: ¿por Qué está mal para referirse a los resultados como "muy significativo"?
He oído que $p$-valores en algunos campos de la ciencia sólo se consideran importantes cuando son más pequeños que los 0.0001, mientras que en otros campos de valores de alrededor de 0.01 ya son considerados altamente significativa.
Preguntas relacionadas con: