2 votos

Cómo se calculó el valor p en este ejemplo de Wikipedia de una prueba binomial

Considere el siguiente ejemplo de This prueba binomial artículo de wikipedia :

Supongamos que tenemos un juego de mesa que depende de la tirada de un dado y que da especial importancia a que salga un 6. En una partida concreta, el dado se tira 235 veces, y el 6 sale 51 veces. Si el dado es justo, se espera que el 6 salga 235/6 = 39,17 veces. ¿Es la proporción de 6s significativamente mayor de lo que se esperaría por azar, en la hipótesis nula de un dado justo?

El artículo pasa a calcular el valor p para una prueba binomial de una cola (es decir, encuentra la probabilidad de obtener 51 o más seises de 235 tiradas).

A continuación, el artículo dice que podría interesarnos utilizar un valor p de dos colas (el extracto se cita a continuación). Tengo dos preguntas:

  • Cuáles son las dos colas que estamos viendo aquí (creo que una es que $p(\#successes \geq 51)$ . La otra supongo que sería de la forma $p(\#successes \leq \bf{X})$ Me refiero a lo que es $\bf{X}$ en este ejemplo).
  • ¿Cómo han calculado la probabilidad de $.0437$ . Lo explican en el artículo -- he puesto en negrita esta parte -- pero la explicación no tiene sentido para mí.
    • (es decir, ¿cuál es la "probabilidad de que la desviación total en el número de eventos en cualquier dirección del valor esperado"? ¿Ni siquiera entiendo cuál es el valor esperado aquí? Sería simplemente 39,17, el número esperado de 6 en 235 tiradas, ¿verdad?)

Existen dos métodos para definir el valor p de dos colas. Un método consiste en sumar la probabilidad de que la desviación total del número de eventos en cualquier dirección respecto al valor esperado sea mayor o menor que el valor esperado. La probabilidad de que esto ocurra en nuestro ejemplo es de 0,0437. El segundo método consiste en calcular la probabilidad de que la desviación del valor esperado sea tan improbable o más improbable que el valor observado, es decir, a partir de una comparación de las funciones de densidad de probabilidad. Esto puede crear una sutil diferencia, pero en este ejemplo se obtiene la misma probabilidad de 0,0437

1voto

Chris Komuves Puntos 11

Método uno: El 51 observado es más que el esperado 39,17 por 11,83. Si el número observado es menor que el esperado 39,17 por 11,83 entonces el número observado sería 27,34. Así que el valor p se calcula mediante $\Pr(X\ge 51) + \Pr(X\le 27)$ .

Segundo método: Conseguir $\Pr(X=51)$ . Calcular $\Pr(X=i), i = 0,..., 235$ . Añade todo $\Pr(X=i)$ con $\Pr(X=i)\le \Pr(X=51)$ . Por supuesto que hay una manera fácil de conseguirlo.

0 votos

El método 1 da unos $.035$ pero el artículo de la wikipedia dice que la probabilidad es $.0437$ ? (Es posible que tenga un error de cálculo. O tal vez Wikipedia está utilizando 28 en lugar de 27, pero entonces eso da alrededor de $.045$ lo que podría ser sólo un error de redondeo)

1 votos

Estuve luchando con el 27 y el 28, y finalmente pensé que el 27 era el correcto. Es posible que wiki haya utilizado una aproximación normal.

1voto

AdamSane Puntos 1825

Es útil tener en cuenta un par de cosas:

  1. la definición de un valor p . Es la probabilidad de obtener una estadística de prueba al menos tan extrema como la que observamos en la muestra, si la hipótesis nula fuera cierta.

  2. La estadística de prueba concreta que utilizamos, que es una forma de medir la distancia de la muestra con respecto a lo que esperaríamos bajo la hipótesis nula; la elegimos de forma que la(s) alternativa(s) concreta(s) que nos interesa(n) tienda(n) a producir una estadística de prueba diferente de la nula.

    En particular, generalmente elegimos la estadística de manera que tienda a dar gran valores o pequeño cuando la hipótesis nula es falsa.

Con estas ideas, no vamos a discutir los cálculos para el problema que nos ocupa.

Utilicemos $O_6$ para denotar ser el conteo observado de 6's en nuestro experimento. En el caso de esta proporción binomial, podríamos medir la diferencia del recuento observado de 6 con respecto al recuento esperado (cuando la nula es verdadera), $T = O_6-\frac{235}{6}$ (o, de forma equivalente, podríamos ver $T_2 = \frac{O_6}{235} - \frac16$ la diferencia de la proporción).

Al observar la alternativa de una cola ( $p_6>\frac16$ ), la estadística de prueba sería simplemente $T$ y los valores considerablemente mayores que la diferencia esperada de cero serán más consistentes con la hipótesis alternativa que con la nula.

Plot of binomial probabilities under H0 and the values greater than or equal to 51 marked in red

Obsérvese que lo que se representa aquí es el recuento en lugar del recuento menos su valor esperado; el aspecto es el mismo, lo único que difiere es la forma de etiquetar el eje x. Las partes rojas representan los términos que componen el valor p .

Con una alternativa de dos colas, podríamos considerar $T_3=|O_6-\frac{235}{6}|$ como nuestra estadística de prueba; esto hará que las proporciones sean menores que $\frac16$ y proporciones más altas que $\frac16$ ambos arrojan grandes valores de la estadística de la prueba. Nuestra medida de "más extremo" es ahora sólo la diferencia absoluta del recuento observado con respecto al que esperaríamos si la nula fuera cierta.

Plot of the absolute difference in count from expected and the values equal to or more than 51-39.17=11.83 marked in red

Por supuesto, podríamos conseguir el mismo fin considerando nuestro $T$ pero mira la distancia de lo esperado en ambas direcciones:

Plot of the (signed) difference in count from expected and the values at least as far from the means as 51-39.17=11.83 marked in red

0 votos

En primer lugar, quiero decir que me parece una respuesta muy buena. Gracias. En segundo lugar, una pregunta de seguimiento: Si, por alguna razón, quería hacer una prueba de una cola, pero para $p<\frac16$ (cuando tenemos $O_6=51$ ), ¿qué debemos cambiar? ¿Deberíamos utilizar una estadística de prueba diferente (tal vez $T_3$ )? ¿Debemos mirar la cola izquierda en lugar de la derecha? Intuitivamente, creo que deberíamos utilizar una estadística de prueba diferente, pero ¿no podríamos seguir utilizando $T$ si quisiéramos Creo que usar $T_4=\frac{235}{6}-O_6$ y mirar la cola izquierda tendría sentido. (Soy consciente de que esta hipótesis alternativa no tiene sentido aquí)

1 votos

Para una prueba de una cola, sólo hay que atenerse a $T$ pero querrá rechazarla cuando sea inusualmente pequeña (es decir, cuando esté lejos del rango negativo), en lugar de cuando sea inusualmente grande. Su valor p será toda la probabilidad (bajo H0) donde $O_6\leq 51$ o $T\leq 51-39.17$ (es decir, el valor p estará muy por encima de 0,5, y definitivamente no rechazará, ya que la muestra está diciendo que la media de la población no es claramente menor que 39,17; la media de la muestra está en el otro lado).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X