4 votos

¿De qué distribución binomial es más probable que proceda mi muestra?

Tengo unos datos binomiales observados como ejemplo de juguete digamos que observo 15 aciertos de 100 ensayos.

Esto sólo podría haber venido de una de dos distribuciones. He observado datos de estas dos distribuciones conocidas. Así que, en efecto, quiero probar si es más probable que mi muestra observada proceda de la misma distribución que cualquiera de las dos:

muestra 1: 6 aciertos de 20 intentos

muestra 2: 7 aciertos de 60 intentos

Siento que me falta una solución muy sencilla que se me ha olvidado...

0 votos

1) Por favor, añada la etiqueta de autoestudio a las preguntas de autoestudio o de deberes. 2) ¿Cuáles son las diferencias entre las tres probabilidades observadas (para un indicio inicial)?

1 votos

(1) no es una pregunta de deberes, sino una pregunta adaptada de la investigación (2) si se observan las diferencias entre las probabilidades observadas, ¿cómo se tiene en cuenta la incertidumbre de las estimaciones basadas en el número de ensayos? No estoy seguro de entender lo que quiere decir...

0 votos

¡Era una indirecta! Normalmente, cuando se trata de material de autoaprendizaje, intentamos guiarle hasta la respuesta en lugar de proporcionarle una. Dado que no son deberes, tú decides cómo quieres proceder. Estoy seguro de que muchas otras personas, entre las que me incluyo, estarían dispuestas a elaborar una respuesta y una explicación para ti.

4voto

bheklilr Puntos 113

Empecemos con un problema relacionado. Tenemos una probabilidad conocida $p$ y dos muestras $(n_1, x_1)$ y $(n_2, x_2)$ . Podemos calcular la probabilidad de observar $(x_1, x_2)$ dado $(n_1, n_2, p)$ como sigue:

$$p(x_1, x_2) = {n_1 \choose x_1}{n_2 \choose x_2}p^{x_1}(1-p)^{n_1-x_1}p^{x_2}(1-p)^{n_2-x_2}$$

que evidentemente se simplifica a

$$p(x_1, x_2) = {n_1 \choose x_1}{n_2 \choose x_2}p^{x_1+x_2}(1-p)^{n_1+n_2-x_1-x_2}$$

Si suponemos $p$ es desconocida, podemos formar fácilmente una estimación enchufable de $p(x_1,x_2)$ hallando la estimación de máxima verosimilitud $\hat{p} = (x_1+x_2)/(n_1+n_2)$ y sustituyendo por lo anterior. Por las propiedades estándar de los MLEs, esto implica que estamos calculando el MLE de $p(x_1, x_2)$ también.

Vamos a intentarlo con tus dos muestras, realizando los cálculos dos veces para las dos combinaciones de tus datos binomiales observados con cada una de las dos muestras. Etiquetaremos los datos binomiales observados como $(100,15)$ con índice 0.

$$p(x_0, x_1) = \dots = 0.00668$$ $$p(x_0, x_2) = \dots = 0.01472$$

Ahora bien, si vamos a hacer una comparación real, también tenemos que incluir una estimación de las probabilidades de $x_1$ y $x_2$ en las dos ecuaciones anteriores para obtener estimaciones del conjunto completo $(x_1, x_2, x_3)$ - de lo contrario, la comparación no será completa. Estas estimaciones pueden calcularse fácilmente introduciendo las MLE de las dos probabilidades en la distribución binomial:

$$p(x_1) = {20 \choose 6}\left(\frac{6}{20}\right)^6\left(\frac{14}{20}\right)^{14} = 0.1916$$ $$p(x_2) = {60 \choose 7}\left(\frac{7}{60}\right)^7\left(\frac{53}{60}\right)^{53} = 0.1585$$

Combinando las distintas probabilidades se obtiene:

$$p(x_0,x_1,x_2) = p(x_0,x_1)p(x_2) = 0.00106$$ $$p(x_0,x_1,x_2) = p(x_0,x_2)p(x_1) = 0.00282$$

Parece algo más probable que la muestra 2 y los datos observados procedan de la misma distribución que la muestra 1 y los datos observados.

Si queremos ser bayesianos, podemos calcular una probabilidad posterior de las dos hipótesis. Pongamos una simple probabilidad a priori Uniforme(0,1) en los distintos parámetros de probabilidad para ambas hipótesis (de todos modos, los datos la compensarán, así que preocuparse por qué probabilidad a priori difusa utilizar exactamente carece de sentido en este caso) y asignemos probabilidades a priori $p(H_1) = p(H_2) = 0.5$ donde $H_1$ indica la hipótesis de que la muestra 1 y los datos observados van juntos y de forma similar para $H_2$ .

Nuestra distribución de probabilidad posterior no normalizada para $p$ y $H_1$ es:

$$f(p, H_1|D) \propto {n_0 \choose x_0}{n_1 \choose x_1}p^{x_0+x_1}(1-p)^{n_0+n_1-x_0-x_1} {n_2 \choose x_2}p_2^{x_2}(1-p_2)^{n_2-x_2}p(H_1)$$

donde utilizamos $D$ como acceso directo a todos los datos. Integración $p$ y $p_2$ resulta en:

$$p(H_1|D) \propto {n_0 \choose x_0}{n_1 \choose x_1} {n_2 \choose x_2}\beta(x_0+x_1,n_0+n_1-x_0-x_1)\beta(x_2,n_2-x_2) p(H_1) = 0.000653*p(H_1)$$

y, del mismo modo, $p(H_2|D) \propto 0.00202p(H_2)$ . Normalizar de la forma obvia da como resultado:

$$p(H_1|D) = \frac{0.000653P(H_1)}{0.000653P(H_1)+0.00202P(H_2)} = 0.244$$

de nuevo, lo que no es sorprendente, indica una ligera preferencia por la muestra 2.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X