Empecemos con un problema relacionado. Tenemos una probabilidad conocida $p$ y dos muestras $(n_1, x_1)$ y $(n_2, x_2)$ . Podemos calcular la probabilidad de observar $(x_1, x_2)$ dado $(n_1, n_2, p)$ como sigue:
$$p(x_1, x_2) = {n_1 \choose x_1}{n_2 \choose x_2}p^{x_1}(1-p)^{n_1-x_1}p^{x_2}(1-p)^{n_2-x_2}$$
que evidentemente se simplifica a
$$p(x_1, x_2) = {n_1 \choose x_1}{n_2 \choose x_2}p^{x_1+x_2}(1-p)^{n_1+n_2-x_1-x_2}$$
Si suponemos $p$ es desconocida, podemos formar fácilmente una estimación enchufable de $p(x_1,x_2)$ hallando la estimación de máxima verosimilitud $\hat{p} = (x_1+x_2)/(n_1+n_2)$ y sustituyendo por lo anterior. Por las propiedades estándar de los MLEs, esto implica que estamos calculando el MLE de $p(x_1, x_2)$ también.
Vamos a intentarlo con tus dos muestras, realizando los cálculos dos veces para las dos combinaciones de tus datos binomiales observados con cada una de las dos muestras. Etiquetaremos los datos binomiales observados como $(100,15)$ con índice 0.
$$p(x_0, x_1) = \dots = 0.00668$$ $$p(x_0, x_2) = \dots = 0.01472$$
Ahora bien, si vamos a hacer una comparación real, también tenemos que incluir una estimación de las probabilidades de $x_1$ y $x_2$ en las dos ecuaciones anteriores para obtener estimaciones del conjunto completo $(x_1, x_2, x_3)$ - de lo contrario, la comparación no será completa. Estas estimaciones pueden calcularse fácilmente introduciendo las MLE de las dos probabilidades en la distribución binomial:
$$p(x_1) = {20 \choose 6}\left(\frac{6}{20}\right)^6\left(\frac{14}{20}\right)^{14} = 0.1916$$ $$p(x_2) = {60 \choose 7}\left(\frac{7}{60}\right)^7\left(\frac{53}{60}\right)^{53} = 0.1585$$
Combinando las distintas probabilidades se obtiene:
$$p(x_0,x_1,x_2) = p(x_0,x_1)p(x_2) = 0.00106$$ $$p(x_0,x_1,x_2) = p(x_0,x_2)p(x_1) = 0.00282$$
Parece algo más probable que la muestra 2 y los datos observados procedan de la misma distribución que la muestra 1 y los datos observados.
Si queremos ser bayesianos, podemos calcular una probabilidad posterior de las dos hipótesis. Pongamos una simple probabilidad a priori Uniforme(0,1) en los distintos parámetros de probabilidad para ambas hipótesis (de todos modos, los datos la compensarán, así que preocuparse por qué probabilidad a priori difusa utilizar exactamente carece de sentido en este caso) y asignemos probabilidades a priori $p(H_1) = p(H_2) = 0.5$ donde $H_1$ indica la hipótesis de que la muestra 1 y los datos observados van juntos y de forma similar para $H_2$ .
Nuestra distribución de probabilidad posterior no normalizada para $p$ y $H_1$ es:
$$f(p, H_1|D) \propto {n_0 \choose x_0}{n_1 \choose x_1}p^{x_0+x_1}(1-p)^{n_0+n_1-x_0-x_1} {n_2 \choose x_2}p_2^{x_2}(1-p_2)^{n_2-x_2}p(H_1)$$
donde utilizamos $D$ como acceso directo a todos los datos. Integración $p$ y $p_2$ resulta en:
$$p(H_1|D) \propto {n_0 \choose x_0}{n_1 \choose x_1} {n_2 \choose x_2}\beta(x_0+x_1,n_0+n_1-x_0-x_1)\beta(x_2,n_2-x_2) p(H_1) = 0.000653*p(H_1)$$
y, del mismo modo, $p(H_2|D) \propto 0.00202p(H_2)$ . Normalizar de la forma obvia da como resultado:
$$p(H_1|D) = \frac{0.000653P(H_1)}{0.000653P(H_1)+0.00202P(H_2)} = 0.244$$
de nuevo, lo que no es sorprendente, indica una ligera preferencia por la muestra 2.
0 votos
1) Por favor, añada la etiqueta de autoestudio a las preguntas de autoestudio o de deberes. 2) ¿Cuáles son las diferencias entre las tres probabilidades observadas (para un indicio inicial)?
1 votos
(1) no es una pregunta de deberes, sino una pregunta adaptada de la investigación (2) si se observan las diferencias entre las probabilidades observadas, ¿cómo se tiene en cuenta la incertidumbre de las estimaciones basadas en el número de ensayos? No estoy seguro de entender lo que quiere decir...
0 votos
¡Era una indirecta! Normalmente, cuando se trata de material de autoaprendizaje, intentamos guiarle hasta la respuesta en lugar de proporcionarle una. Dado que no son deberes, tú decides cómo quieres proceder. Estoy seguro de que muchas otras personas, entre las que me incluyo, estarían dispuestas a elaborar una respuesta y una explicación para ti.
0 votos
Ah, vale, sólo intentaba escribir la pregunta de forma que fuera lo más comprensible posible. Actualmente mi mejor enfoque es hacer dos pruebas de proporción binomial separadas y comparar los dos valores p, pero preferiría una sola prueba, ya que creo que es un poco complicado. Cualquier ayuda será muy apreciada :)
0 votos
Empiece por escribir una expresión para la probabilidad de los datos en su conjunto bajo cada uno de los dos modelos: uno en el que los 15 de cada 100 comparten un parámetro Bernoulli común con la Muestra 1, y otro en el que comparten un parámetro Bernoulli común con la Muestra 2. A continuación, decida si desea (1) simplemente comparar las probabilidades de los dos modelos. A continuación, decida si desea (1) simplemente comparar verosimilitudes (maximizadas sobre otros parámetros desconocidos) o (2) realizar una prueba de hipótesis con uno de los modelos definiendo una hipótesis nula (tenga en cuenta que los modelos no están anidados), o (3) realizar un cálculo bayesiano de probabilidades posteriores.