6 votos

Valor p con PDF multimodal de una estadística de prueba

He abierto un hilo sobre el valor p bajo el título " Entender el valor p " y he recibido dos respuestas y algunos comentarios. Creo que mi pregunta en el hilo es algo diversa y quiero aclarar mi pregunta más explícitamente en base a la discusión en el hilo. En el hilo se sugirieron dos definiciones diferentes del valor p.

definición 1

El valor p es $\int_{\{x\,:\,f(x) \le f(x_o)\}} f$ .

definición 2

El valor p es $\int_{\{x\,:\,x_o \le x\}} f$ .

En ambas definiciones, $f$ es la PDF de un estadístico de prueba elegido bajo la hipótesis nula y $x_o$ es el valor observado de la estadística de la prueba. Creo que las dos definiciones son suficientemente claras y completas. (El valor p se refiere únicamente a los datos, a una hipótesis nula y a un estadístico elegido. No se refiere a la hipótesis alternativa ni a otras cosas).

La función del valor p es cuantificar la probabilidad de la observación bajo la hipótesis nula. Un valor p pequeño significa que los datos observados son raros (es decir, poco probables) bajo la hipótesis nula y que debe rechazarse la hipótesis nula asumida.

La definición 1 mide esta rareza en términos de $f(x_o)$ la densidad de probabilidad del estadístico de prueba observado. Así, la definición integra $f$ sobre los valores de la estadística de prueba que tienen una densidad de probabilidad menor (es decir, más rara) que la observada.

La definición 2 mide la rareza en términos de la distancia de $x_o$ del valor más probable de la estadística de prueba, si el valor más probable está bien definido. Así, la definición integra $f$ sobre los valores desde el observado hasta la cola (es decir, la región más extraña).

Si $f$ es unimodal, ambas definiciones parecen razonables. Si $f$ es multimodal, sin embargo, creo que la definición 2 no es razonable. Por ejemplo, supongamos que $f$ es bimodal y $x_o$ se encuentra en la región de baja densidad de probabilidad entre los dos picos. Entonces el valor más probable no está bien definido y la distancia de $x_o$ del valor más probable no puede ser una medida razonable de la rareza. El valor p calculado según la definición 2 puede ser muy grande, mientras que la observación $x_o$ es obviamente extraño debido a su baja densidad de probabilidad. La definición 1 sigue funcionando en este caso, ya que da un valor p pequeño.

No soy estadístico y no sé cuál de las definiciones es "la correcta" que suelen utilizar los estadísticos. La mayoría de los materiales que he visto antes explican el valor p en el sentido de la definición 2. Pero, me encontré con la definición 1 en la respuesta de Zag del viejo hilo por primera vez y me convenció. ¿Cuál es la definición exacta del valor p? Si no es la definición 1, me gustaría saber el fundamento de la correcta y las deficiencias de la definición 1.

1 votos

Por cierto, creo que te refieres a $\int_{\{x\,:\,f(x) \leq f(x_o)\}} f$ en la definición 1. El valor de $x_o$ puede ser 10, en cuyo caso $f(x)$ siempre sería menor.

0 votos

@Scortchi, tienes razón, he editado la definición.

2 votos

Lo que hace que un estadístico de prueba sea "más extremo" es la ordenación impuesta en el espacio muestral por los valores del estadístico, en concreto, que los valores más coherentes con la alternativa sean los "más extremos". La única prueba que conozco que ordena por $f$ es la prueba "exacta" de Fisher en tablas de 2x2, pero creo que tiene una relación de uno a uno con una ordenación natural de una estadística

3voto

user8076 Puntos 16

Creo que todo esto está demasiado "centrado en el valor p".

Hay que recordar en qué consisten realmente las pruebas: rechazar una hipótesis nula con un valor dado para el riesgo. El $p$ -valor es sólo una herramienta para esto. En la situación más general, se ha construido una estadística $T$ con distribución conocida bajo la hipótesis nula ; y elegir una región de rechazo $A$ para que $\mathbb P_0(T \in A) = \alpha$ (o al menos $\le \alpha$ es la igualdad es imposible). Los valores P son sólo una forma conveniente de elegir $A$ en muchas situaciones, lo que le ahorra la carga de tener que elegir. Es una receta fácil, por eso es tan popular, pero no hay que olvidarse de lo que ocurre.

Como $p$ -Los valores se calculan a partir de $T$ (con algo como $p = F(T)$ también son estadísticas, con una uniformidad $\mathcal U(0,1)$ distribución bajo la nula. Si se comportan bien, tienden a tener valores bajos bajo la alternativa, y se rechaza la nula cuando $p \le\alpha$ . La región de rechazo $A$ es entonces $A = F^{-1}( (0,\alpha) )$ .

Vale, ya he agitado bastante las manos, es hora de poner ejemplos.

Una situación clásica con una estadística unimodal

Supongamos que usted observa $x$ extraído de $\mathcal N(\mu,1)$ y quiere probar $\mu = 0$ (prueba de dos caras). La solución habitual es tomar $t = x^2$ . Usted sabe $T \sim \chi^2(1)$ bajo la nula, y el valor p es $p = \mathbb P_0( T \ge t)$ . Esto genera la clásica región de rechazo simétrica que se muestra a continuación para $\alpha = 0.1$ . blue area = 0.1

En la mayoría de las situaciones, el uso del $p$ -valor conduce a la elección "buena" para la región de rechazo.

Una situación de lujo con una estadística bimodal

Supongamos que $\mu$ se extrae de una distribución desconocida, y $x$ se extrae de $\mathcal N(\mu,1)$ . Su hipótesis nula es que $\mu = -4$ con probabilidad $1\over 2$ y $\mu = 4$ con probabilidad $1\over 2$ . Entonces se tiene una distribución bimodal de $X$ como se muestra a continuación. Ahora no se puede confiar en la receta: si $x$ está cerca de 0, digamos que $x = 0.001$ ... seguro que quieres rechazar la hipótesis nula.

Así que tenemos que hacer una elección aquí. Una elección sencilla será tomar una región de rechazo de la forma $$ A = (-\infty, -4-a) \cup (-4+a, 4-a) \cup (4+a, \infty) $$ ancho $0< a$ como se muestra a continuación (con la convención de que si $a \ge 4$ el intervalo central está vacío). La opción natural es, de hecho, tomar una región de rechazo de la forma $A = \{ x \>:\> f(x) < c \}$ donde $f$ es la densidad de $X$ pero aquí es casi lo mismo.

Después de algunos cálculos, tenemos $\newcommand{\erf}{F}$ $$\mathbb P( X \in A ) = \erf(-a)+\erf(-8-a) + \mathbf 1_{\{a<4\}} \left( \erf(8-a)-\erf(a)\right) $$ donde $F$ es la fdc de una variable gaussiana estándar. Esto permite encontrar un umbral adecuado $a$ para cualquier valor de $\alpha$ . blue area = 0.1 Ahora para recuperar un $p$ -valor que da una prueba equivalente, a partir de una observación $x$ Una toma $a = \min( |4-x|, |-4-x| )$ para que $x$ está en el límite de la región de rechazo correspondiente ; y $p = \mathbb P( X \in A )$ con la fórmula anterior.

Post-Scriptum Si dejas que $T = \min( |4-X|, |-4-X| )$ , se transforma $X$ en una estadística unimodal, y se puede tomar el $p$ -valor como siempre.

0 votos

Estoy de acuerdo en que el volumen general de la conversación sobre $p$ -es desproporcionada en relación con la utilidad de la herramienta cuando se trata de estimar modelos estadísticos. En lo que respecta a la cuestión que aquí se trata, el supuesto básico de la prueba es que la variable aleatoria se distribuye normalmente como $N$ aumenta, en cuyo caso la distribución será unimodal y la bimodalidad es sólo una anomalía de la muestra. La explicación anterior es buena sobre lo que hay que hacer en ese supuesto. Si se viola ese supuesto, entonces ninguna de las dos definiciones debe considerarse relevante.

1voto

jasonmray Puntos 1303

En realidad se trata de dos preguntas:

(1) ¿Cuál es la definición de un valor p?

Respuesta: Definición 2-la probabilidad bajo la hipótesis nula de obtener un valor del estadístico de prueba mayor o igual al observado. (Como ha señalado @whuber, necesita alguna matización: en el caso de una hipótesis nula compuesta, la probabilidad implicada es la probabilidad máxima sobre cada punto nulo en ese conjunto; la probabilidad de lo que a veces se llama la hipótesis nula proximal).

(2) ¿Debe un estadístico de prueba aumentar estrictamente con una probabilidad decreciente bajo la hipótesis nula?

He tratado de responder a esto en las respuestas a su post anterior. (Respuesta: no siempre.) Espero que alguien pueda explicarlo más claramente si es necesario. Al menos ten en cuenta aquí que muchos estadísticos de prueba de uso común no lo hacen. Tienes ...

(a) estadísticos de prueba ordenados por la probabilidad bajo el nulo: La prueba exacta de Fisher, como señala Greg Snow, y la prueba para un parámetro binomial dada por Zag.

(b) estadísticos de prueba ordenados por la razón de verosimilitud (a veces, pero no siempre, dando la misma ordenación que (a)): mi ejemplo de prueba de bondad de ajuste binomial.

(c) estadísticas de prueba elegidas para obtener la máxima potencia frente a las alternativas especificadas (a veces, pero no siempre, dando el mismo orden que (a) y/o (b), como creo que quería decir RobertF): 'The Emperor's new tests', Perlman & Wu (1999), junto con los comentarios y la réplica, es muy interesante (aunque difícil).

Si lees el artículo de Christensen que enlazó Zag, verás que en el primer ejemplo escribe "Con sólo esta información, hay que utilizar la propia densidad para determinar qué valores de los datos parecen raros y cuáles no". La implicación clara es que con más información no hay que utilizar necesariamente la propia densidad para determinar qué valores de los datos parecen raros y cuáles no.

En respuesta al comentario de @whuber ...

La prueba del cociente de probabilidad es, de hecho, un buen ejemplo del uso de la Defn 2. En este caso, el valor p es simplemente la probabilidad (bajo la hipótesis nula) de que el cociente de probabilidad sea mayor o igual que el observado.

Como ejemplo elemental, se pueden probar dos hipótesis para la probabilidad de éxito en un ensayo Bernoulli : $$H_0: \theta = 0.55$$ $$H_1: \theta = 0.35$$

Nueve ensayos independientes dan $t$ éxitos:

$$\newcommand{\pr}{\mathrm{Pr}}\begin{array}{cccc} t & \pr(t|H_0) & \pr(t|H_1) & \frac{\pr(t|H_1)}{\pr(t|H_0)}=x\\ 0 & 0.00076 & 0.02071 & 27.372\\ 1 & 0.00832 & 0.10037 & 12.060\\ 2 & 0.04069 & 0.21619 & 5.3128\\ 3 & 0.11605 & 0.27162 & 2.3406\\ 4 & 0.21276 & 0.21939 & 1.0312\\ 5 & 0.26004 & 0.11813 & 0.4543\\ 6 & 0.21188 & 0.04241 & 0.2001\\ 7 & 0.11099 & 0.00979 & 0.0882\\ 8 & 0.03391 & 0.00132 & 0.0389\\ 9 & 0.00461 & 0.00008 & 0.0171 \end{array}$$

El ratio de probabilidad $x$ es su estadística de prueba.

Utilizando la Defn 1 para obtener un valor p, hay que sumar todas las probabilidades (bajo el nulo) para valores menos (o igualmente) probables de $x$ que la observada. Así, observando $t = 2$ , se sumarían los de $2$ , $8$ , $1$ , $9$ , & $0$ éxitos para dar $0.04069 + 0.03391 + 0.00832 + 0.00461 + 0.00076 = 0.08829$

Usando la Defn 2, se suman todas las probabilidades (bajo el nulo) para los valores de $x$ mayor (o igual) que la observada. Por lo tanto, la observación de $t = 2$ , $x$ es mayor para $0$ & $1$ éxitos por lo que se suma su probabilidad bajo el nulo a la de $2$ éxitos para dar un valor p de $0.04069 + 0.00832 + 0.00076 = 0.04977$ .

Está claro que este último procedimiento es la prueba de razón de verosimilitud tal y como se entiende habitualmente, & la definida por el lema de Neyman-Pearson.

0 votos

Esta es otra cita del documento: si tiene otra estadística en la que quiera basar una prueba, el probador de Fisherian estará encantado de complacerle. Citando a Fisher (1956, p. 49), la hipótesis debe rechazarse "si se puede demostrar que cualquier característica relevante del registro observacional es suficientemente rara". Después de todo, si el modelo nulo es correcto, debería ser capaz de resistir cualquier desafío. Estoy de acuerdo con las frases. Cualquiera que sea la estadística utilizada, su densidad de probabilidad está a nuestro alcance y creo que la densidad debe ser considerada en la forma de la definición 1.

0 votos

La definición 1, y no la 2, es la correcta, aunque la definición 2 se "cite" con frecuencia, especialmente en contextos elementales. Sorprendentemente, algunos buenos libros de texto ni siquiera utilizan el término "valor p" (por ejemplo, Kendall y Stuart). En su lugar, se centran en la región crítica y piden uno o varios valores que maximicen la potencia de la prueba. El lema de Neyman-Pearson afirma esencialmente que la definición 1 es relevante para encontrar esta prueba "más potente", no Definición 2.

0 votos

@whuber, Lo que afirma el lema de Neyman-Pearson es que la prueba de razón de verosimilitud entre las hipótesis nula y alternativa puntuales es uniformemente más potente. El estadístico de prueba para la LRT es, por supuesto, la razón de verosimilitud y la región de rechazo se define en términos de valores altos (o bajos) de la razón de verosimilitud (Definición 2). Pero la razón de verosimilitud es multimodal en el sentido que aquí se discute: hace no de las particiones de orden del espacio muestral lo mismo que la probabilidad bajo el nulo. Esto es bastante fácil de comprobar.

1voto

Eero Puntos 1612

En realidad, ambas definiciones funcionan en diferentes casos, depende de cómo se defina la hipótesis nula (que a menudo se ve afectada por la forma en que se plantea la hipótesis alternativa, así que sí importa).

Si su hipótesis nula es estrictamente que el parámetro o parámetros son iguales a un valor determinado (o conjunto de valores, 1 por parámetro), por ejemplo $H_0: \mu=\mu_0$ entonces su primera definición funciona (bien con $f(x) \le f(x_0)$ ). Esta es la prueba de 2 colas en los casos tradicionales de estadística simple.

Pero a menudo sólo nos interesa que la alternativa esté en una determinada dirección, el caso de prueba de una cola. Por ejemplo, si quiero demostrar que mi nuevo analgésico es mejor que la aspirina (tarda menos en desaparecer el dolor de cabeza por término medio), sólo me interesa una cola y mi alternativa sería $H_a: \mu < \mu_0$ (si demuestro que mi nuevo medicamento tarda más, entonces no ayudará a mi publicidad). Esto lleva a que la hipótesis nula sea $H_0: \mu \ge \mu_0$ aunque a menudo lo escribimos como $H_0: \mu = \mu_0$ . En este caso sólo queremos ver las posibles $x$ valores en una región determinada, por lo que se parece más a la definición 2.

En la práctica, la mayoría de las estadísticas de prueba comunes siguen una distribución unimodal (o se acercan bastante) bajo la hipótesis nula, por lo que ambas definiciones son las mismas. El único caso común que conozco en el que todos los casos posibles con menor probabilidad se incluyen en el valor p es la prueba exacta de Fisher para tablas mayores que $2\times2$ .

Así que para resumir. Tu pensamiento es generalmente correcto, los casos que sugieres son lo suficientemente raros como para que la mayoría de los libros/clases sólo presenten la versión más simple.

0 votos

Pero hay algo más que eso. El ejemplo que utilicé para la pregunta original era la prueba de razón de verosimilitud para la bondad del ajuste en el caso binomial, con una probabilidad binomial de 0,85 bajo el nulo y un tamaño de muestra de 10. Es un punto nulo, sin embargo, el pdf de la estadística de la prueba es multimodal.

0 votos

En realidad, dudo del uso de una prueba unilateral como la de su ejemplo, aunque muchos textos sugieren dicha prueba. Su estadística de prueba tiene probabilidades para $\mu < \mu_0$ aunque suponga que $\mu \ge \mu_0$ . ¿Cómo se resuelve esta discrepancia? Creo que ignorar simplemente una parte de la distribución no es una forma correcta. En mi opinión, hay que aceptar la distribución tal y como es y utilizar una prueba de dos caras (o utilizar la definición 1 es mejor), este enfoque presenta la desventaja de la discrepancia y al menos es más estricto que el de una cara (siempre da un valor p mayor).

2 votos

@JDL, Si afirmáramos que soy más alto que todos los miembros de tu familia y quisiéramos probar esa afirmación, podríamos comparar mi altura con la altura de cada miembro de tu familia, o sería más sencillo encontrar a la persona más alta de tu familia y comparar mi altura con la suya. Es similar a la prueba de un lado, usamos la igualdad para la distribución nula y si rechazamos ese valor (mostrando que creemos que el valor verdadero es menor) entonces también hemos rechazado cada valor mayor que ese valor nulo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X