27 votos

Comparar y contrastar, los valores de p, significado niveles y error tipo I

Me preguntaba si alguien podría dar un breve resumen en cuanto a las definiciones y usos de los valores de p, nivel de significación y el tipo de error.

Entiendo que los valores de p se define como "la probabilidad de obtener un estadístico de prueba al menos tan extremo como el que realmente observada", mientras que un nivel de significación es sólo un arbitraria valor de corte para evaluar si el p-valor es significativo o no. Error de tipo I es el error de la rechazaron la hipótesis nula de que era cierto. Sin embargo, estoy seguro de que en cuanto a la diferencia entre el nivel de significancia y el error de tipo I, que no son el mismo concepto?

Por ejemplo, suponga que un experimento muy simple donde me lanza una moneda 1000 veces y contar el número de veces que se aterriza en 'jefes'. Mi hipótesis nula, H0, es que los jefes = 500 (imparcial de la moneda). Luego me puse mi nivel de significación alfa = 0,05.

Le doy la vuelta a la moneda 1000 veces y, a continuación, calcular el valor de p, si el p-valor > 0.05 entonces yo no se puede rechazar la hipótesis nula y si el p-valor < 0.05 entonces yo rechazar la hipótesis nula.

Ahora si me hizo este experimento varias veces, cada vez que calcular el valor de p y de rechazar o no rechazar la hipótesis nula y mantener un recuento de cuántos he rechazado/no pudo rechazar, terminaría rechazando el 5% de la hipótesis nula, que eran en realidad de verdad, ¿es correcto? Esta es la definición de error de tipo I. Por lo tanto, el nivel de significación de Fisher pruebas de significación es, esencialmente, el error de tipo I de Neyman-Pearson, la prueba de hipótesis si se realiza la repetición de experimentos.

Ahora, como para los valores de p, si yo había conseguido un p-valor de 0,06 desde mi último experimento y me hizo varios experimentos y contó todos los que tengo un p-valor de 0 a 0.06, entonces yo también no tienen un 6% de probabilidad de rechazar una verdadera hipótesis nula?

18voto

JMW.APRN Puntos 21

La pregunta parece simple, pero su reflexión alrededor de ella, muestra que no es así de simple.

En realidad, los valores de p son relativamente adición tardía a la teoría de la estadística. Cálculo de un p-valor sin necesidad de un ordenador es muy tedioso; por eso es que la única manera de realizar una prueba estadística hasta hace poco fue el uso de las tablas de las pruebas estadísticas, tal y como explico en esta entrada del blog. Porque esas tablas se calcularon para los fijos $\alpha$ niveles (normalmente 0.05, 0.01 y 0.001) sólo pudo realizar una prueba con esos niveles.

Los ordenadores han hecho esas tablas inútil, pero la lógica de la prueba sigue siendo el mismo. Usted debe:

  1. Formular una hipótesis nula.
  2. Formular una hipótesis alternativa.
  3. Decidir un máximo de error de tipo I (la probabilidad de que falsamente rechazar la hipótesis nula de error que están dispuestos a aceptar.
  4. Diseño de un rechazo a la región. La probabilidad de que el estadístico de prueba cae en la región de rechazo, dado que la hipótesis nula es su nivel de $\alpha$. Como @MånsT explica, este debe ser no menor de su aceptable de error de tipo I, y en muchos casos el uso de aproximaciones asintóticas.
  5. Llevar a cabo el experimento al azar, calcular el estadístico de prueba y ver si cae en la región de rechazo.

En teoría, existe una estricta equivalencia entre los eventos de "la estadística cae en la región de rechazo" y "el p-valor es menor que $\alpha$", que es la razón por la que se considera que puede reportar el p-valor en su lugar. En la práctica, se permite omitir el paso 3. y evaluar el tipo de error después de la prueba se realiza.

Para volver a su puesto, la declaración de la hipótesis nula es incorrecta. La hipótesis nula es que la probabilidad de lanzar una cabeza es $1/2$ (la hipótesis nula no se refieren a los resultados del experimento al azar).

Si se repite el experimento una y otra vez con un umbral de valor de p de 0,05, sí, usted debe tener aproximadamente el 5% de rechazo. Y si se establece un p-valor de cut-off de 0.06, usted debe terminar con aproximadamente el 6% de rechazo. Más en general, para los ensayos continuos, por la definición del valor de p $p$

$$ Prob(p < x) = x, \, (0 < x < 1), $$

que sólo es aproximadamente cierto para las pruebas.

Aquí hay algunas código R que espero pueda aclarar esto un poco. La prueba binomial es relativamente lento, por lo que sólo 10.000 azar experimentos en los que le doy la vuelta 1000 monedas. Me realice una prueba binomial y recoger los 10.000 p-valores.

set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
    all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491

Se puede ver que las proporciones no son exactos, ya que el tamaño de la muestra no es infinita y la prueba es discreto, pero todavía hay un incremento de aproximadamente el 1% entre los dos.

16voto

phloopy Puntos 4285

Los conceptos son, de hecho, íntimamente ligados el uno al otro.

El nivel de significancia es la probabilidad de un error tipo I, o, más bien, la presunción de probabilidad de que dicho evento. ${\rm P}({\rm type~I~error})= \alpha$ puede generalmente sólo se puede obtener cuando se trabaja con distribuciones continuas, de modo que en la prueba clásica de la teoría de la prueba se dice que tienen un nivel de significación del $\alpha$ si ${\rm P}({\rm type~I~error})\leq \alpha$, lo que significa que la probabilidad de un error tipo I es acotado por $\alpha$. Sin embargo, las pruebas de que el uso de aproximaciones de uno u otro tipo, en realidad tienden a tener ${\rm P}({\rm type~I~error})\approx \alpha$, en cuyo caso la probabilidad de un error tipo I puede ser mayor que el nominal,$\alpha$.

El p-valor es el más bajo nivel de significación en el cual la hipótesis nula, se acepta. Así nos dice "cómo significativo" es el resultado.

16voto

Sean Hanley Puntos 2428

Usted obtener buenas respuestas de @MansT & @gui11aume (+1) a cada uno). Déjame ver si puedo conseguir más explícitamente en algo, tanto de sus respuestas.

Cuando se trabaja con discretos de datos, sólo hay ciertos valores de p sea posible, y el problema es peor, con menos posibilidades / conjuntos de datos más pequeños. Imagine, por ejemplo, lanzar una moneda $n$ veces. La probabilidad de obtener un número determinado de cabezas, $k$, es: $$ p(k)=\frac{n!}{k!(n-k)!}p^k(1-p)^{n-k} $$ Digamos que un investigador quiere probar una determinada moneda (que en realidad es justo) por la justicia por darle 10 veces y registrando el número de cabezas. Es decir, la hipótesis nula es verdad. Nuestro investigador establece $\alpha=.05$, por convención, y porque eso es lo que es necesario para la aceptación por la comunidad. Ahora, ignorando el convencional alfa por un momento, vamos a considerar la cola 2 los valores de p (error de tipo I tarifas) que son posibles en esta situación:

number of heads:           0    1    2    3    4    5    6    7    8    9   10
individual probability:  .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate:       .002 .021 .109 .344 .754   1  .754 .344 .109 .021 .002

Esto lo que demuestra es que el uso de $\alpha=.05$ conducirá a una larga cola 2 tipo de tasa de error de $.021$. Así que esto es claramente un caso en el que $\alpha\ne\text{type I error}$, sin embargo, si $\alpha$ fueron uno de los valores anteriores (en lugar de $.05$), el nivel de significación sería igual el tipo de la tasa de error. A pesar de ese problema, el p-valor no igual el tipo de la tasa de error en este caso. Tenga en cuenta que no hay ningún problema aquí con un desajuste entre una discreta inferencial estadística y una continua referencia de distribución, debido a que utiliza el exacto probabilidades binomiales. Nota, además, que este tipo de situaciones han impulsado el desarrollo de la mediados de p-valor para ayudar a minimizar la discrepancia entre el valor de p y el nivel de significación.

Puede haber casos donde el valor calculado de p-valor no es igual a la de largo plazo del tipo de la tasa de error, además del hecho de que el tipo de la tasa de error no es necesariamente igual al nivel de significación. Considere la posibilidad de una tabla de contingencia 2x2 con estos observado cuenta:

     col1 col2
row1   2    4   
row2   4    2

Ahora, ¿cómo debo calcular el valor de p para la independencia de las filas y columnas? Hay muchas opciones (que me discutir aquí). Voy a empezar por calcular el $\chi^2$ estadística y comparando es la referencia a la distribución; que los rendimientos de $\chi^2_{1}=1.3, p=.248$. El $\chi^2$ referencia de distribución es continua, sin embargo, y tan sólo una aproximación a cómo esta particular (discreto) $\chi^2$ estadística se comportan. Podemos utilizar la prueba exacta de Fisher para determinar el verdadero tipo de la tasa de error; luego me $p=.5671$. Cuando el p-valor es calculado de esta manera, se hace igual el tipo de la tasa de error, aunque aún nos queda la pregunta de si uno de los posibles valores de p es exactamente el 5%. Debo de admitir que me engañó un poco, si yo había utilizado la corrección de Yates para la continuidad, me hubiera dado una mejor aproximación de la verdadera tipo de tasa de error, pero todavía no han sido del todo correcto ($.5637\ne .5671$).

Por lo tanto, los problemas aquí son que, con datos discretos:

  • su preferida nivel de significación no puede ser uno de los posible las tasas de error tipo I, y
  • utilizando (convencional) aproximaciones a la continua estadísticas de rendimiento inexacta calcula p-valores.

Estos problemas se agravan los más pequeños de su $N$. Hasta donde yo sé, estos problemas no existen con datos continuos.

(Aunque la pregunta no preguntar acerca de las soluciones a estos problemas) hay, hay cosas que mitigar estos problemas:

  • mayor $N$ significa más valores posibles, haciendo que las cosas más continua-ish,
  • a menudo hay correcciones (tales como la corrección de Yates para la continuidad) que traerá calcula los valores cercanos a los valores correctos
  • el test exacto (si es manejable, es decir, si $N$ es lo suficientemente pequeño) lo llevará a corregir los valores de p
  • mediados de los p-value ofrece la posibilidad de obtener el tipo de la tasa de error más cerca de su nivel de confianza elegido,
  • usted puede utilizar explícitamente uno de los de tipo I tasas de error que existen (o nota de lo que sería).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X