5 votos

¿Cómo combinar dos experimentos repetidos independientes con probabilidades de éxito diferentes?

De la repetición de un experimento (sobre los que he preguntado antes) con $n$ posibles resultados $t$ veces de forma independiente, donde todos, pero uno de los resultados tengan probabilidad de $\frac{1}{n+1}$ y la de otro resultado tiene el doble de probabilidad de $\frac{2}{n+1}$, yo también obtener una información independiente, donde el resultado con el doble de probabilidad de la muestra hasta un 50% más de probabilidades que los otros resultados (es decir, con una probabilidad de $\frac{3}{2n+1}$ y la de los demás probabilidad es $\frac{2}{2n+1}$).

¿Cómo combinar los dos resultados?

Formulación alternativa: Dado es la probabilidad de espacio $(\Omega\times\Omega, \mathcal{P}(\Omega\times\Omega), \mathrm{p})$ con $$\mathrm{p}(\omega \omega') = \left\{\begin{array}{cc} \frac{6}{(n+1)(2n+1)} & \mbox{ if } \omega = \omega_0 \mbox{ and } \omega' = \omega_0\\ \frac{4}{(n+1)(2n+1)} & \mbox{ if } \omega = \omega_0 \mbox{ and } \omega' \ne \omega_0\\ \frac{3}{(n+1)(2n+1)} & \mbox{ if } \omega \ne \omega_0 \mbox{ and } \omega' = \omega_0\\ \frac{2}{(n+1)(2n+1)} & \mbox{ otherwise } \end{array}\right.$$

donde $\omega_0\in\Omega$ es desconocido (y $|\Omega| = n$). El objetivo es encontrar a $\omega_0$ $t$ de las muestras de $\Omega\times\Omega$.

Actualmente estoy contando la frecuencia de cada valor se muestra en la primera coordenada y agregar el número de veces que se muestra en la segunda coordenada se multiplica por un factor de ponderación de $\log_2(\frac{3}{2})$. El valor con el número más alto debería ser $\omega_0$ (si $t$ es lo suficientemente grande).

Es esta la correcta factor de ponderación de la rsp. la manera correcta para encontrar $\omega_0$?

PS: yo también estoy agradecido por cualquier persona en la búsqueda de mejores etiquetas para mi pregunta.

4voto

jldugger Puntos 7490

Problema interesante.

Primero vamos a generalizar y simplificar la notación. Hay dos distribuciones multinomiales, uno con probabilidades $(p_1, p_2, \ldots, p_n)$ = $(2/(n+1), 1/(n+1), \ldots, 1/(n+1))$ y el otro con probabilidades $(q_1,q_2, \ldots, q_n)$ = $(3/(2n+1), 2/(2n+1), \ldots, 2/(2n+1))$. Las probabilidades son, en orden descendente: $p_1 \ge p_2 \ge \cdots \ge p_n \gt 0$$q_1 \ge q_2 \ge \cdots \ge q_n \gt 0$.

Realice $t$ observaciones independientes de cada uno, con recuentos $k_i$ y $m_i$ ($i=1, 2, \ldots, n$), respectivamente. Sin embargo, usted no sabe la subíndices: usted sólo tiene los pares ordenados $\left((k_{\sigma(1)},m_{\sigma(1)}), \ldots, (k_{\sigma(n)}, m_{\sigma(n)})\right)$ a un desconocido permutación $\sigma$ de los subíndices.

Usted propone que la identificación de estos pares corresponde al subíndice $1$ mediante la fijación de coeficientes positivos $x$ $y$ informática y las estadísticas

$$z_i = x k_i + y m_i, \quad i = 1, 2, \ldots, n,$$

nominaciones y el subíndice con el mayor valor de $z_i$.

Vamos a asumir su función de pérdida es simplemente el indicador de corrección, de modo que su objetivo es maximizar la probabilidad de que $z_1$ es la mayor de las $z_i$.

Para conseguir una manija en lo que los valores óptimos de $x$ $y$ debe ser, considere el caso donde ambos $n$ $t$ son grandes. Un gran $n$ nos permite ignorar la ligera dependencia de la $k_i$ (e $m_i$), tratándolos como si fueran independientes. Un gran $t$ nos permite adoptar Normal aproximaciones a la distribución de la $k_i$$m_i$. Estas indicar que, en una buena aproximación,

$$k_i \sim N(p_i t, p_i(1-p_i)t); \quad m_i \sim N(q_i t, q_i(1-q_i)t)$$

(donde los parámetros son la media y la varianza). Por lo tanto

$$z_i \sim N((x p_i + y q_i)t, (x^2 p_i(1-p_i) + y^2 q_i(1-q_i))t).$$

Para maximizar la posibilidad de hacer una determinación correcta, lo que queremos es maximizar la probabilidad de que $z_1 \gt z_i$$i \gt 1$. Porque

$$\eqalign{ z_1 - z_i \sim & N((x(p_1-p_i) + y(q_1-q_i))t, \\ y(x^2 [p_1(1-p_1) + p_i(1-p_i)] + y^2 [ q_1(1-q_1)+q_i(1-q_i)])t), }$$

esto es equivalente a la maximización de la z-score,

$$z = \frac{(x(p_1-p_i) + y(q_1-q_i))t}{\sqrt{(x^2 [p_1(1-p_1) + p_i(1-p_i)] + y^2 [ q_1(1-q_1)+q_i(1-q_i)])t}}.$$

Esta expresión toma la forma

$$z = \sqrt{t} \frac{a x + b y}{\sqrt{c x^2 + d y^2}}$$

para estrictamente positivo de los coeficientes de $a, b, c, d$ (garantizando $z$ va a ser positivo, lo que debería ser obvio). Nota, también, que sólo la relación de $\xi = x/y$ es importante, porque reescalado $x$ $y$ no cambia el orden de las $z_i$. Por lo tanto, es suficiente para maximizar la plaza de esta expresión,

$$z^2 = t \frac{(a\xi + b)^2}{c\xi^2 + d},$$

para $\xi \gt 0$.

Este sencillo problema tiene la solución

$$\eqalign{ \xi = &\frac{d}{b, c} \\ = &\frac{(p_1 - p_i)(q_1(1-q_1)+q_i(1-q_i)}{q_1 - q_i)(p_1(1-p_1) + p_i(1-p_i))} \\ = &\frac{1/(n+1)(3(2n-2)/(2n+1)^2 + 2(2n-1)/(2n+1)^2)}{1/(2n+1)(2(n-1)/(n+1)^2 + n/(n+1)^2)} \\ = & \frac{10 n^2 + n 2 n - 8}{6 n^2 - n - 2} }$$

para todos los $i \gt 1$. Recordando la suposición de que $n$ es grande, se conservan sólo los más altos poderes de $n$ y encontrar (selección de $x=1$, de modo que $y = 1/\xi$):

$$x = 1, \quad y = 3/5 = 0.6.$$

Esto, literalmente, responde a la pregunta: el valor de $\log_2(3/2) \sim 0.585$ no está muy bien de peso, a pesar de que (sorprendentemente) cerrar.

Este análisis no responde a la pregunta básica, sin embargo: como una función de la $n$$t$, ¿cuál es el mejor peso? Esto se puede encontrar con un análisis similar con mucho más dolorosas de los cálculos relativos a la distribución multinomial en lugar de la Normal de aproximaciones. Sospecho, sin ninguna prueba, que la fórmula para $\xi$ va a funcionar bien, incluso para pequeñas $n$ pequeñas y $t$.

Plot of 1/xi vs. n

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X