Tengo el siguiente problema (quiero predecir resultados deportivos). Deje $X$ ser un discreto RV con $m$ resultados posibles, cada uno con probabilidad de $p_i$$i=1,\ldots,m$. Supongamos que tengo un gran iid de la muestra $X_1,\ldots,X_n$, donde cada variable tiene la misma distribución que $X$. Ahora, para hacer una predicción para cada una de las $X_k$ (antes de que su valor real se dibuja) yo sólo podía predecir siempre resultado $i^*$ con mayor probabilidad de $p^*_i$. Luego, en la espera, yo estaría a la derecha en $n\cdot p^*_i$ de las muestras.
Como alternativa, podría muestra de la distribución de $X$, es decir, para cada una de las $X_k$ predecir el valor de $i$ según $p_i$. Entonces, la probabilidad de que mi predicción para $X_k$ es igual a la del sorteo real de $X_k$ es
$$q=P[\hat{X}_k=X_k]=\sum_{i=1}^m P[\hat{X}_k=i]P[X_k=i]=\sum_{i=1}^m p_i^2.$$
Por lo tanto, según este enfoque, la probabilidad de que estoy en lo correcto en $r$ predicciones es $B(r;n,q)=\binom{n}{r}q^r(1-q)^{n-r}$. Ahora, ¿cuál es la probabilidad de que este enfoque da a mí, al menos, $n\cdot p_i^*$ resultados correctos (es decir, $B(n\cdot p_i^*;n,q)+\cdots+B(n;n,q)$)? ¿Se conocen los resultados generales sobre esto? ¿Cómo funciona la respuesta dependerá de la distribución de $X$ (por ejemplo, uniforme, sesgada, ...)?
En otras palabras, debo muestra (enfoque 2) o simplemente predecir los probables resultados (enfoque 1)? (Hice algún error en alguna parte?)