Determinar la probabilidad de que un conjunto de datos booleanos sea producido por una distribución

Question

Determinar la probabilidad de que un conjunto de datos booleanos sea producido por una distribución

Preguntado el 4 de Febrero, 2016: Cuando se hizo la pregunta
78 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Supongamos que tenemos una colección de variables aleatorias booleanas independientes $X_i$ y $Y_i$ (para $1 \le i \le N$ ), y se les dice $p_i = P(X_i = 1)$ para todos $i$ . Ahora se nos da un conjunto de valores $x_i$ que fue producido por $X_i$ o por $Y_i$ (pero no sabemos cuál).

Nos gustaría determinar la probabilidad de que el $x_i$ fueron producidos por $X_i$ (es decir, lo bien que se conoce $p_i$ predecir los valores que hemos obtenido). ¿Hay alguna forma de hacerlo? ¿Tiene sentido la pregunta (dado que no sabemos nada sobre la distribución de los posibles $Y_i$ distribuciones)?

(Algunos casos especiales tienen resultados obvios: si $p_i = 0$ y $x_i = 1$ para cualquier $i$ podemos estar seguros de que el $x_i$ fueron producidos por $Y_i$ y si $p_i = x_i$ para todos $i$ podemos estar al menos un 50% seguros de que el $x_i$ fueron producidos por $X_i$ .)

Preguntado el 4 de Febrero, 2016 por Richard Smith

Answer 1

1 Respuestas

Answer 2

1voto

kevtrout Puntos 2774

Dejemos que $q_i=P(Y_i=1)$ . Las variables $q_i$ se denominan parámetros molestos y para tratarlos tenemos que ponerles una prioridad y luego hacer un promedio sobre ellos.

Para ser más precisos, el modelo es el siguiente: tenemos parámetros $p_1,\dots,p_N$ y $q_1,\dots,q_N$ . Sabemos que el $p_i$ pero no sabemos el $q_i$ y por lo tanto debe poner una distribución a priori sobre ellos, digamos con p.d.f. $p(q_1,\dots,q_N)$ . Entonces el $X_i$ y $Y_i$ se han generado como variables aleatorias Bernoulli con parámetros $p_1,\dots,p_N,q_1,\dots,q_N$ . Por último, hemos elegido el $x_i$ para que todos sean iguales a la $X_i$ o todos sean iguales al $Y_i$ . Diga $H$ es verdadera si son iguales a la $X_i$ y falso si son iguales al $Y_i$ s. También necesitamos una probabilidad a priori sobre $H$ , digamos que $P(H)=1/2$

Entonces queremos calcular $P(H|x_1,\dots,x_N)$ . Aplicando el Teorema de Bayes se obtiene

$$P(H|x_1,\dots,x_N)=\frac{P(x_1,\dots,x_N|H)P(H)}{P(x_1,\dots,x_N|H)P(H)+P(x_1,\dots,x_N|¬H)P(¬H)}$$

Ahora, $P(H)=P(¬H)=1/2$ y $P(x_1,\dots,x_N|H)$ se puede calcular a partir de $p_1,\dots,p_N$ . Así que queda por calcular $P(x_1,\dots,x_N|¬H)$ . Si supiéramos el $q_i$ podríamos hacer esto inmediatamente. Es decir, sabemos cómo calcular $P(x_1,\dots,x_N|¬H,q_1,\dots,q_N)$ . Entonces aplicamos la "ley de la probabilidad total" para obtener:

$$P(x_1,\dots,x_N|¬H)=\int P(x_1,\dots,x_N|¬H,q_1,\dots,q_N)p(q_1,\dots,q_N)\mathrm{d}q_1\dots\mathrm{d}q_N$$

La única pregunta que queda es qué distribución previa $p(q_1,\dots,q_N)$ para elegir. Si no supiera absolutamente nada sobre el $q_i$ entonces diría que tenerlas i.i.d. distribuidas uniformemente en $[0,1]$ sería una buena descripción de mi (falta de) conocimiento. Es decir, elegiría $p(q_1,\dots,q_N)=1$ . Pero si tiene información adicional sobre el $q_i$ Por ejemplo, si se sospecha que pueden estar correlacionados entre sí, habría que elegir una prioridad diferente. $p(q_1,\dots,q_N)$ para describir su estado de conocimiento.

Respondido el 6 de Febrero, 2016 por kevtrout (2774 Puntos )

Determinar la probabilidad de que un conjunto de datos booleanos sea producido por una distribución

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Determinar la probabilidad de que un conjunto de datos booleanos sea producido por una distribución

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: