Usted obtener buenas respuestas de @MansT & @gui11aume (+1) a cada uno). Déjame ver si puedo conseguir más explícitamente en algo, tanto de sus respuestas.
Cuando se trabaja con discretos de datos, sólo hay ciertos valores de p sea posible, y el problema es peor, con menos posibilidades / conjuntos de datos más pequeños. Imagine, por ejemplo, lanzar una moneda $n$ veces. La probabilidad de obtener un número determinado de cabezas, $k$, es:
$$
p(k)=\frac{n!}{k!(n-k)!}p^k(1-p)^{n-k}
$$
Digamos que un investigador quiere probar una determinada moneda (que en realidad es justo) por la justicia por darle 10 veces y registrando el número de cabezas. Es decir, la hipótesis nula es verdad. Nuestro investigador establece $\alpha=.05$, por convención, y porque eso es lo que es necesario para la aceptación por la comunidad. Ahora, ignorando el convencional alfa por un momento, vamos a considerar la cola 2 los valores de p (error de tipo I tarifas) que son posibles en esta situación:
number of heads: 0 1 2 3 4 5 6 7 8 9 10
individual probability: .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate: .002 .021 .109 .344 .754 1 .754 .344 .109 .021 .002
Esto lo que demuestra es que el uso de $\alpha=.05$ conducirá a una larga cola 2 tipo de tasa de error de $.021$. Así que esto es claramente un caso en el que $\alpha\ne\text{type I error}$, sin embargo, si $\alpha$ fueron uno de los valores anteriores (en lugar de $.05$), el nivel de significación sería igual el tipo de la tasa de error. A pesar de ese problema, el p-valor no igual el tipo de la tasa de error en este caso. Tenga en cuenta que no hay ningún problema aquí con un desajuste entre una discreta inferencial estadística y una continua referencia de distribución, debido a que utiliza el exacto probabilidades binomiales. Nota, además, que este tipo de situaciones han impulsado el desarrollo de la mediados de p-valor para ayudar a minimizar la discrepancia entre el valor de p y el nivel de significación.
Puede haber casos donde el valor calculado de p-valor no es igual a la de largo plazo del tipo de la tasa de error, además del hecho de que el tipo de la tasa de error no es necesariamente igual al nivel de significación. Considere la posibilidad de una tabla de contingencia 2x2 con estos observado cuenta:
col1 col2
row1 2 4
row2 4 2
Ahora, ¿cómo debo calcular el valor de p para la independencia de las filas y columnas? Hay muchas opciones (que me discutir aquí). Voy a empezar por calcular el $\chi^2$ estadística y comparando es la referencia a la distribución; que los rendimientos de $\chi^2_{1}=1.3, p=.248$. El $\chi^2$ referencia de distribución es continua, sin embargo, y tan sólo una aproximación a cómo esta particular (discreto) $\chi^2$ estadística se comportan. Podemos utilizar la prueba exacta de Fisher para determinar el verdadero tipo de la tasa de error; luego me $p=.5671$. Cuando el p-valor es calculado de esta manera, se hace igual el tipo de la tasa de error, aunque aún nos queda la pregunta de si uno de los posibles valores de p es exactamente el 5%. Debo de admitir que me engañó un poco, si yo había utilizado la corrección de Yates para la continuidad, me hubiera dado una mejor aproximación de la verdadera tipo de tasa de error, pero todavía no han sido del todo correcto ($.5637\ne .5671$).
Por lo tanto, los problemas aquí son que, con datos discretos:
- su preferida nivel de significación no puede ser uno de los posible las tasas de error tipo I, y
- utilizando (convencional) aproximaciones a la continua estadísticas de rendimiento inexacta calcula p-valores.
Estos problemas se agravan los más pequeños de su $N$. Hasta donde yo sé, estos problemas no existen con datos continuos.
(Aunque la pregunta no preguntar acerca de las soluciones a estos problemas) hay, hay cosas que mitigar estos problemas:
- mayor $N$ significa más valores posibles, haciendo que las cosas más continua-ish,
- a menudo hay correcciones (tales como la corrección de Yates para la continuidad) que traerá calcula los valores cercanos a los valores correctos
- el test exacto (si es manejable, es decir, si $N$ es lo suficientemente pequeño) lo llevará a corregir los valores de p
- mediados de los p-value ofrece la posibilidad de obtener el tipo de la tasa de error más cerca de su nivel de confianza elegido,
- usted puede utilizar explícitamente uno de los de tipo I tasas de error que existen (o nota de lo que sería).