6 votos

Encontrar las bolas de mayor probabilidad

Agradecería cualquier idea o referencia a la investigación en relación con lo siguiente:

Suponga que tiene un espacio métrico discreto con una distribución de probabilidad en él. Además, suponga que me dan un número $k$ . Mi problema es encontrar la bola de mayor probabilidad.

A bola es el conjunto de todos los puntos cuya distancia a un punto dado es menor o igual a $k$ y la "probabilidad de la bola" es simplemente la suma de las probabilidades de este conjunto de puntos.

El caso continuo (menos interesante en mi caso, pero potencialmente útil) sería tener una distribución de probabilidad sobre $R^n$ y encontrar la bola n con la mayor integral al integrar la función de densidad en el $n$ - de la pelota.

Este problema es una abstracción de un problema práctico que intento resolver. la solución de un caso especial de $k=0$ (por ejemplo, en cuyo caso una "bola" es sólo un punto) es sólo la moda de la distribución.

El caso general se plantea, por ejemplo, en el siguiente problema de predicción: supongamos que se intenta "predecir" $n$ eventos binarios independientes. Así que cada predicción es un evento binario $n$ -tupla (con una distribución de probabilidad impuesta en ese espacio, basada, por ejemplo, en suposiciones, datos anteriores, etc.). Ahora, supongamos que se permite tener algunos errores en la predicción, y se intenta encontrar una predicción que maximice la probabilidad de "éxito" (es decir, de no cometer demasiados errores). La solución es exactamente una "bola" de n dimensiones en el espacio de las n-tuplas con la métrica hamming.

Cualquier idea, idea o referencia a una investigación relevante sería muy apreciada.

4voto

Estela Puntos 26

Aunque el problema es en general intratable, tu ejemplo motivador supone eventos independientes, lo que proporciona una estructura más que suficiente para resolver este problema. Permítame volver a exponer lo que intenta demostrar para asegurarme de que lo entiendo:

Usted tiene $n$ variables aleatorias binomiales independientes $X_i\sim \mathrm{Binomial}(p_i)$ , $i=1,\dotsc,n$ . Su objetivo es encontrar un punto $\hat x \in \{0, 1\}^n$ que maximiza la probabilidad $$\mathbb{P}\{\mathrm{d}_H(\hat x, {X})\le k\},$$ donde $\mathrm{d}_H$ denota la métrica de Hamming y ${X}=(X_1,\dotsc,X_n)$ es el vector de variables aleatorias binomiales.

Debido a la independencia, la respuesta es trivial: Elija el punto más probable es decir, el conjunto

$$ \hat{x}_i = \begin{cases} 0,& p_i \le 0.5 \\ 1, &p_i >0.5.\end{cases}$$

Veamos por qué esto es cierto utilizando la inducción. La receta anterior es trivial para $n=1$ . Sea $n>1$ y supongamos que la receta es válida para $n-1$ . Entonces, por la independencia,

$$ \mathbb{P}\{ \mathrm{d}_H(x,X)\le k\} = \mathbb{P}\{x_n = X_n\} \mathbb{P}\{\mathrm{d}_H({x}^{(n-1)}, X^{(n-1)}) \le k\} + \mathbb{P}\{x_n \ne X_n\} \mathbb{P}\{\mathrm{d}_H({x}^{(n-1)}, X^{(n-1)}) \le k-1\}$$

donde utilizamos la abreviatura $x^{(n-1)} = (x_1,\dotsc,x_{n-1})$ . Por la hipótesis de inducción, nuestra mejor elección posible de $x^{(n-1)}$ est $\hat{x}^{(n-1)}$ el punto más probable de $X^{(n-1)}$ . Además, como siempre tenemos

$$\mathbb{P}\{\mathrm{d}_H({x}^{(n-1)}, X^{(n-1)}) \le k\} \ge \mathbb{P}\{\mathrm{d}_H({x}^{(n-1)}, X^{(n-1)})\le k-1\},$$

debemos elegir siempre ${x}_n$ para maximizar $\mathbb{P}\{\hat x_n = X_n\}$ que es la receta reclamada. #

¿Cerca de la independencia?

La independencia es claramente una suposición muy fuerte, pero en muchos casos tenemos razones para creer que los elementos son casi independiente. Una forma común de medir la "cercanía" de las variables aleatorias (digamos, binarias) $X$ y $Y$ es el métrica de variación total :

$$ d_{TV}(X,Y):= \sup_{A \subset \{0,1\}^n} | \mathbb{P}\{ X \in A\} - \mathbb{P}\{Y\in A\} | $$

Tomando, por ejemplo, $A:= \{y \mid d_H(x,y) \le k\}$ encontramos que para cualquier variable aleatoria binaria $X$ , $Y$

$$ |\mathbb{P}\{ d_H(x, X) \le k\} - \mathbb{P}\{d_H(x,Y)\le k\}| \le d_{TV}(X,Y).$$

Concluimos que cuando $Y$ es "casi independiente" en el sentido de que la distancia de la norma TV a una variable RV $X$ con entradas independientes es muy pequeño, entonces es posible argumentar que tomar $\hat x$ para ser el vector más probable para $X$ también es una buena opción para $Y$ .

Hay que tener cuidado Sin embargo, no se puede aplicar esta lógica. En primer lugar, no he dado ninguna pista sobre cómo calcular una métrica de televisión; tendrás que utilizar los datos concretos que tengas a mano y algo de ingenio.

Un peligro más sutil reside en el hecho de que la estimación de la norma de televisión suele ser inútil a menos que $k$ es grande . Esto se debe a que el supremum en la TV se producirá a menudo para los conjuntos $A$ con medida cerca de $1/2$ . A menos que $k$ es grande, es probable que la bola de Hamming de anchura $k$ tiene una medida minúscula en comparación con la norma televisiva.

Es posible que pueda afinar un poco sus argumentos, pero la capacidad de controlar el error utilizando este enfoque depende (una vez más) en gran medida de su situación particular.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X