33 votos

Entender el valor p

Sé que hay muchos materiales que explican el valor p. Sin embargo, el concepto no es fácil de entender con firmeza sin más aclaraciones.

Esta es la definición de valor p de la Wikipedia:

El valor p es la probabilidad de obtener una estadística de prueba al menos tan extrema como la realmente observada, suponiendo que la hipótesis nula es verdadera. ( http://en.wikipedia.org/wiki/P-value )

Mi primera pregunta se refiere a la expresión "al menos tan extrema como la que se observó en realidad". Mi comprensión de la lógica que subyace al uso del valor p es la siguiente: Si el valor p es pequeño, es poco probable que la observación se haya producido asumiendo la hipótesis nula y puede que necesitemos una hipótesis alternativa para explicar la observación. Si el valor p no es tan pequeño, es probable que la observación haya ocurrido sólo asumiendo la hipótesis nula y la hipótesis alternativa no es necesaria para explicar la observación. Así que si alguien quiere insistir en una hipótesis tiene que demostrar que el valor p de la hipótesis nula es muy pequeño. Teniendo en cuenta este punto de vista, mi interpretación de la expresión ambigua es que el valor p es $\min[P(X<x),P(x<X)]$ si la PDF de la estadística es unimodal, donde $X$ es la estadística de la prueba y $x$ es su valor obtenido a partir de la observación. ¿Es esto correcto? Si es correcto, ¿sigue siendo aplicable utilizar la PDF bimodal del estadístico? Si dos picos de la PDF están bien separados y el valor observado se encuentra en algún lugar de la región de baja densidad de probabilidad entre los dos picos, ¿de qué intervalo da el valor p la probabilidad?

El segunda pregunta se trata de otra definición de valor p de Wolfram MathWorld:

La probabilidad de que una variante asuma un valor mayor o igual al valor observado estrictamente por azar. ( http://mathworld.wolfram.com/P-Value.html )

He entendido que la frase "estrictamente por azar" debe interpretarse como "suponiendo una hipótesis nula". ¿Es eso cierto?

El tercera pregunta en cuanto al uso de la "hipótesis nula". Supongamos que alguien quiere insistir en que una moneda es justa. Expresa la hipótesis como que la frecuencia relativa de caras es 0,5. Entonces la hipótesis nula es "la frecuencia relativa de cabezas no es 0,5". En este caso, mientras que el cálculo del valor p de la hipótesis nula es difícil, el cálculo es fácil para la hipótesis alternativa. Por supuesto, el problema puede resolverse intercambiando el papel de las dos hipótesis. Mi pregunta es si el rechazo o la aceptación basados directamente en el valor p de la hipótesis alternativa original (sin introducir la hipótesis nula) está bien o no. Si no está bien, ¿cuál es la solución habitual para estas dificultades cuando se calcula el valor p de una hipótesis nula?


He publicado un nuevo pregunta que se aclare más a partir de la discusión en este hilo.

17voto

Justin White Puntos 941

Primera respuesta

Hay que pensar en el concepto de extremo en términos de probabilidad de la estadística de la prueba, no en términos de su valor o del valor de la variable aleatoria que se está probando. Informo del siguiente ejemplo de Christensen, R. (2005). Pruebas de Fisher, Neyman, Pearson y Bayes . El Estadístico Americano , 59(2), 121-126

$$ \phantom{(r\;|\;\theta=0}r\; | \quad 1 \quad \quad 2 \quad \quad 3 \quad \quad 4\\ p(r\;|\;\theta=0) \; |\; 0.980\;0.005\; 0.005\; 0.010\\ \quad p\;\mathrm{value} \; \; | \;\; 1.0 \quad 0.01 \quad 0.01 \;\; 0.02 $$

Aquí $r$ son las observaciones, la segunda línea es la probabilidad de observar una determinada observación bajo la hipótesis nula $\theta=0$ que se utiliza aquí como estadística de prueba, la tercera línea es la $p$ valor. Estamos aquí en el marco de la prueba de Fisher: hay una hipótesis ( $H_0$ , en este caso $\theta=0$ ) bajo el cual queremos ver si los datos son raros o no. Las observaciones con menor probabilidad son la 2 y la 3 con un 0,5% cada una. Si se obtiene 2, por ejemplo, la probabilidad de observar algo tan probable o menos probable ( $r=2$ y $r=3$ ) es del 1%. La observación $r=4$ no contribuye a la $p$ aunque esté más lejos (si existe una relación de orden), porque tiene mayor probabilidad de ser observado.

Esta definición funciona en general, ya que se adapta tanto a las variables categóricas como a las multidimensionales, en las que no se define una relación de orden. En el caso de una variable cuantitativa única, en la que se observa cierto sesgo respecto al resultado más probable, podría tener sentido calcular el cola única $p$ y considerar sólo las observaciones que están en un lado de la distribución de la estadística de prueba.

Segunda respuesta

No estoy en absoluto de acuerdo con esta definición de Mathworld.

Tercera respuesta

Tengo que decir que no estoy completamente seguro de haber entendido su pregunta, pero intentaré dar algunas observaciones que puedan ayudarle.

En el contexto más sencillo de las pruebas de Fisher, en el que sólo se tiene la hipótesis nula, ésta debería ser la situación actual . Esto se debe a que la prueba de Fisher funciona esencialmente por contradicción. Por lo tanto, en el caso de la moneda, a menos que tenga razones para pensar de manera diferente, asumirá que es justa, $H_0: \theta=0.5$ . A continuación, se calcula el $p$ valor para sus datos bajo $H_0$ y, si su $p$ está por debajo de un umbral predefinido, se rechaza la hipótesis (prueba por contradicción). Usted nunca calcular la probabilidad de la hipótesis nula.

Con las pruebas de Neyman-Pearson se especifican dos hipótesis alternativas y, en función de su probabilidad relativa y de la dimensionalidad de los vectores de parámetros, se favorece una u otra. Esto puede verse, por ejemplo, en la prueba de la hipótesis de la moneda sesgada frente a la insesgada. Insesgado significa fijar el parámetro en $\theta=0.5$ (la dimensionalidad de este espacio de parámetros es cero), mientras que biased puede ser cualquier valor $\theta \neq 0.5$ (dimensionalidad igual a uno). Esto resuelve el problema de intentar contradecir la hipótesis de sesgo por contradicción, lo que sería imposible, como explicó otro usuario. Fisher y NP dan resultados similares cuando la muestra es grande, pero no son exactamente equivalentes. A continuación un código sencillo en R para una moneda sesgada.

n <- 100  # trials
p_bias <- 0.45  # the coin is biased
k <- as.integer(p_bias * n)  # successes

# value obtained by plugging in the MLE of p, i.e. k/n = p_bias
lambda <- 2 * n * log(2) + 2 * k * log(p_bias) + 2 * (n-k) * log(1. - p_bias)

p_value_F <- 2 * pbinom(k, size=n, prob=0.5)  # p-value under Fisher test
p_value_NP <- 1 - pchisq(q=lambda, df=1)  # p-value under Neyman-Pearson
binom.test(c(k, n-k))  # equivalent to Fisher

2voto

jasonmray Puntos 1303

(1) Una estadística es un número que se puede calcular a partir de una muestra. Se utiliza para poner en orden todas las muestras que puedas tener (bajo un modelo supuesto, en el que las monedas no caen en sus bordes y demás). Si $t$ es lo que se calcula a partir de la muestra obtenida, & $T$ es la variable aleatoria correspondiente, entonces el valor p viene dado por $\newcommand{\pr}{\mathrm{Pr}} \pr\left(T\geq t\right)$ bajo la hipótesis nula, $H_0$ . En principio, "mayor que" o "más extremo" no tiene importancia. Para una prueba de dos caras sobre una media normal podríamos utilizar $\pr(|Z|\geq |z|)$ pero es conveniente usar $2\min [\pr(Z\geq z),\pr(Z\leq z)]$ porque tenemos las tablas adecuadas. (Obsérvese la duplicación).

No es necesario que el estadístico de la prueba ponga las muestras en orden de su probabilidad bajo la hipótesis nula. Hay situaciones (como el ejemplo de Zag) en las que cualquier otra forma parecería perversa (sin más información sobre lo que $r$ medidas, qué tipo de discrepancias con $H_0$ son de mayor interés, etc.), pero a menudo se utilizan otros criterios. Así que se podría tener una PDF bimodal para la estadística de la prueba y seguir probando $H_0$ utilizando la fórmula anterior.

(2) Sí, quieren decir bajo $H_0$ .

(3) Una hipótesis nula como "La frecuencia de cabezas no es 0,5" no sirve porque nunca podrías rechazarla. Es un nulo compuesto que incluye "la frecuencia de cabezas es 0,49999999", o lo más parecido que quieras. Independientemente de que pienses de antemano que la moneda es justa o no, escoges una hipótesis nula útil que tiene que ver con el problema. Tal vez sea más útil, después del experimento, calcular un intervalo de confianza para la frecuencia de caras que muestre que, o bien no es claramente una moneda justa, o bien está lo suficientemente cerca de serlo, o bien hay que hacer más ensayos para averiguarlo.

Una ilustración para (1):

Suponga que está probando la equidad de una moneda con 10 lanzamientos. Hay $2^{10}$ posibles resultados. He aquí tres de ellos:

$\mathsf{HHHHHHHHHH}\\ \mathsf{HTHTHTHTHT}\\ \mathsf{HHTHHHTTTH}$

Probablemente estarás de acuerdo conmigo en que los dos primeros parecen un poco sospechosos. Sin embargo, las probabilidades bajo el nulo son iguales:

$\mathrm{Pr}(\mathsf{HHHHHHHHHH}) = \frac{1}{1024}\\ \mathrm{Pr}(\mathsf{HTHTHTHTHT}) = \frac{1}{1024}\\ \mathrm{Pr}(\mathsf{HHTHHHTTTH}) = \frac{1}{1024}$

Para llegar a alguna parte, tienes que considerar qué tipos de alternativa a la nula quieres probar. Si estás preparado para asumir la independencia de cada lanzamiento bajo la nulidad y la alternativa (y en situaciones reales esto a menudo significa trabajar muy duro para asegurar que los ensayos experimentales son independientes), puedes utilizar el recuento total de cabezas como estadística de prueba sin perder información. (Parcelar el espacio muestral de esta manera es otro trabajo importante que hace la estadística).

Así que tienes una cuenta entre 0 y 10

t<-c(0:10)

Su distribución bajo el nulo es

p.null<-dbinom(t,10,0.5)

Bajo la versión de la alternativa que mejor se ajusta a los datos, si se ven (digamos) 3 de 10 caras la probabilidad de cara es $\frac{3}{10}$ Así que

p.alt<-dbinom(t,10,t/10)

Tome el cociente entre la probabilidad bajo la nula y la probabilidad bajo la alternativa (llamado cociente de probabilidad):

lr<-p.alt/p.null

Comparar con

plot(log(lr),p.null)

Así que para este nulo, los dos estadísticos ordenan las muestras de la misma manera. Si se repite con un nulo de 0,85 (es decir, probando que la frecuencia de cabezas a largo plazo es del 85%), no lo hacen.

p.null<-dbinom(t,10,0.85)
plot(log(lr),p.null)

lrt gof test

Para ver por qué

plot(t,p.alt)

Algunos valores de $t$ son menos probables bajo la alternativa, y el estadístico de la prueba de razón de verosimilitudes lo tiene en cuenta. Nota: este estadístico de prueba no será extremo para

$\mathsf{HTHTHTHTHT}$

Y eso está bien: todas las muestras pueden considerarse extremas desde algún punto de vista. Eliges el estadístico de la prueba en función del tipo de discrepancia con el nulo que quieres poder detectar.

... Siguiendo esta línea de pensamiento, se puede definir un estadístico que divida el espacio muestral de forma diferente para probar la misma nulidad contra la alternativa de que un lanzamiento de moneda influye en el siguiente. Llama al número de ejecuciones $r$ para que

$\mathsf{HHTHHHTTTH}$

tiene $r=6$ :

$\mathsf{HH}\ \mathsf{T}\ \mathsf{HHH}\ \mathsf{TTT}\ \mathsf{H}$

La secuencia sospechosa

$\mathsf{HTHTHTHTHT}$

tiene $r=10$ . También lo hace

$\mathsf{THTHTHTHTH}$

mientras que en el otro extremo

$\mathsf{HHHHHHHHHH}\\ \mathsf{TTTTTTTTTT}$

tienen $r=1$ . Utilizando la probabilidad bajo el nulo como estadístico de prueba (de la forma que se quiera) se puede decir que el valor p de la muestra

$\mathsf{HTHTHTHTHT}$

es por lo tanto $\frac{4}{1024}=\frac{1}{256}$ . Lo que es digno de mención, comparando esta prueba con la anterior, es que incluso si te ciñes estrictamente a la ordenación dada por la probabilidad bajo el nulo, la forma en que defines tu estadística de prueba para dividir el espacio muestral depende de la consideración de las alternativas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X