En esencia, estás planteando una pregunta muy interesante: ¿debo predecir utilizando el "MAP Bayesiano" Estimación máxima a posteriori o "Bayesiano real".
Suponga que conoce la verdadera distribución que $P(H)=0.2$ Entonces, utilizando la estimación MAP, supongamos que queremos hacer 100 predicciones sobre los próximos 100 resultados de los volteos. Deberá siempre adivinan que el tirón es la cola NO adivinar $20$ cabeza y $80$ cola. Esto se llama "MAP Bayesiano", básicamente estás haciendo $\arg\max_ \theta f(x|\theta)$ . No es difícil demostrar que de esta manera se puede minimizar el error previsto (pérdida de 0-1). La prueba se puede encontrar en ~la página 53 de Introducción al aprendizaje estadístico .
Existe otra forma de hacerlo, denominada enfoque "bayesiano real". Básicamente, no se trata de "seleccionar el resultado con mayor probabilidad, sino de tener en cuenta todos los casos". Así pues, si alguien le pide que "prediga los próximos 100 resultados", debería negarse a hacerlo, porque cuando se dan 100 resultados binarios, la información probabilística de cada resultado desaparece.
En su lugar, debe preguntarse qué quiere hacer DESPUÉS de conocer los resultados. Supongamos que tendremos alguna función de pérdida (no es necesario que sea de 0 a 1, por ejemplo, la función de pérdida puede ser, si se pierde una cabeza, hay que pagar \$1, but if you miss a tail, you need to pay \$ 5, es decir, pérdida desequilibrada) en su predicción, entonces debe utilizar su conocimiento sobre la verdadera distribución y minimizar la pérdida sobre toda la distribución $$\int \int p(x,y) L(f(x),y) dx dy$$ Es decir, incorporar sus conocimientos sobre la distribución a la pérdida, en lugar de hacerlo por etapas, obteniendo las predicciones y realizando los pasos siguientes.
Además, tiene una muy buena intuición sobre lo que tendrá cuando hay muchos resultados posibles. La estimación MAP no funcionará bien si el número de resultados es grande. Piensa que tienes 100 dados laterales y conoces la verdadera distribución. Donde $P(S_1)=0.1$ y $P(S_2)=P(S_3)=P(S_{100})=0.9/99=0.009090$ . ¿Qué se hace ahora con la estimación máxima a posteriori? Siempre se adivina que se obtiene el primer lado $S_1$ ya que tiene la mayor probabilidad en comparación con los demás. Sin embargo, te equivocarás $90\%$ ¡¡de los tiempos!!
4 votos
Me parece que está preguntando por la independencia: por ejemplo, si sale cara una vez, ¿es más probable que salga cruz la próxima vez? Si no es esto lo que está preguntando, ¿podría aclarar su pregunta? (Si he entendido bien tu pregunta, la respuesta es "sí": en situaciones como el lanzamiento de una moneda, el resultado más probable será siempre el que tenga la mayor probabilidad, independientemente de lo que haya ocurrido anteriormente).
0 votos
Gracias por la ayuda @arboviral. Sí, estoy asumiendo la independencia. He actualizado la pregunta para indicarlo.
4 votos
Asumiendo la independencia, lo mejor que puedes hacer es elegir el lado con mayor probabilidad. Piénsalo así. No tienes ninguna otra información para hacer una mejor suposición. Todo lo que sabes de los dados es la frecuencia con la que aparece un determinado lado y cuáles fueron los últimos lanzamientos. Pero la independencia te dice que las filas anteriores no tienen efecto en el lanzamiento actual. Tal vez si tuvieras más información, como la cantidad de fuerza utilizada para lanzar los dados, la mano izquierda/derecha del lanzador, o el número de sacudidas anteriores. Sin embargo, si el dado es realmente justo, dudo que incluso ese nivel de detalle proporcione mejores predicciones.
0 votos
Tu suposición es correcta; es una consecuencia inmediata de la desigualdad de Holder (con los parámetros $(1, \infty)$ ).
0 votos
¿Sabes que P(H) = 0,2? ¿O es algo que tienes que averiguar observando los resultados?
0 votos
He realizado un par de modificaciones (errores tipográficos) en el texto y he intentado que el título sea más útil para los futuros buscadores. Siéntase libre de revertir mis cambios si he cambiado algo de una manera que no está satisfecho.
0 votos
¿Se conoce perfectamente P(H), o se ha determinado por el resultado de un gran número N de tiradas previas? Si es esto último, entonces, incluso asumiendo la independencia, hay alguna probabilidad de que P(H) < 0,5 sea errónea. Si se tiene en cuenta el resultado de cada prueba posterior, al final se obtendrá un resultado mejor que si se ignora la nueva información.