3 votos

Determinar la probabilidad de que un conjunto de datos booleanos sea producido por una distribución

Supongamos que tenemos una colección de variables aleatorias booleanas independientes $X_i$ y $Y_i$ (para $1 \le i \le N$ ), y se les dice $p_i = P(X_i = 1)$ para todos $i$ . Ahora se nos da un conjunto de valores $x_i$ que fue producido por $X_i$ o por $Y_i$ (pero no sabemos cuál).

Nos gustaría determinar la probabilidad de que el $x_i$ fueron producidos por $X_i$ (es decir, lo bien que se conoce $p_i$ predecir los valores que hemos obtenido). ¿Hay alguna forma de hacerlo? ¿Tiene sentido la pregunta (dado que no sabemos nada sobre la distribución de los posibles $Y_i$ distribuciones)?

(Algunos casos especiales tienen resultados obvios: si $p_i = 0$ y $x_i = 1$ para cualquier $i$ podemos estar seguros de que el $x_i$ fueron producidos por $Y_i$ y si $p_i = x_i$ para todos $i$ podemos estar al menos un 50% seguros de que el $x_i$ fueron producidos por $X_i$ .)

1voto

kevtrout Puntos 2774

Dejemos que $q_i=P(Y_i=1)$ . Las variables $q_i$ se denominan parámetros molestos y para tratarlos tenemos que ponerles una prioridad y luego hacer un promedio sobre ellos.

Para ser más precisos, el modelo es el siguiente: tenemos parámetros $p_1,\dots,p_N$ y $q_1,\dots,q_N$ . Sabemos que el $p_i$ pero no sabemos el $q_i$ y por lo tanto debe poner una distribución a priori sobre ellos, digamos con p.d.f. $p(q_1,\dots,q_N)$ . Entonces el $X_i$ y $Y_i$ se han generado como variables aleatorias Bernoulli con parámetros $p_1,\dots,p_N,q_1,\dots,q_N$ . Por último, hemos elegido el $x_i$ para que todos sean iguales a la $X_i$ o todos sean iguales al $Y_i$ . Diga $H$ es verdadera si son iguales a la $X_i$ y falso si son iguales al $Y_i$ s. También necesitamos una probabilidad a priori sobre $H$ , digamos que $P(H)=1/2$

Entonces queremos calcular $P(H|x_1,\dots,x_N)$ . Aplicando el Teorema de Bayes se obtiene

$$P(H|x_1,\dots,x_N)=\frac{P(x_1,\dots,x_N|H)P(H)}{P(x_1,\dots,x_N|H)P(H)+P(x_1,\dots,x_N|¬H)P(¬H)}$$

Ahora, $P(H)=P(¬H)=1/2$ y $P(x_1,\dots,x_N|H)$ se puede calcular a partir de $p_1,\dots,p_N$ . Así que queda por calcular $P(x_1,\dots,x_N|¬H)$ . Si supiéramos el $q_i$ podríamos hacer esto inmediatamente. Es decir, sabemos cómo calcular $P(x_1,\dots,x_N|¬H,q_1,\dots,q_N)$ . Entonces aplicamos la "ley de la probabilidad total" para obtener:

$$P(x_1,\dots,x_N|¬H)=\int P(x_1,\dots,x_N|¬H,q_1,\dots,q_N)p(q_1,\dots,q_N)\mathrm{d}q_1\dots\mathrm{d}q_N$$

La única pregunta que queda es qué distribución previa $p(q_1,\dots,q_N)$ para elegir. Si no supiera absolutamente nada sobre el $q_i$ entonces diría que tenerlas i.i.d. distribuidas uniformemente en $[0,1]$ sería una buena descripción de mi (falta de) conocimiento. Es decir, elegiría $p(q_1,\dots,q_N)=1$ . Pero si tiene información adicional sobre el $q_i$ Por ejemplo, si se sospecha que pueden estar correlacionados entre sí, habría que elegir una prioridad diferente. $p(q_1,\dots,q_N)$ para describir su estado de conocimiento.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X