11 votos

Adivinar la probabilidad por los resultados de un solo experimento

Tengo una pregunta sobre la probabilidad que parece fácil, pero de alguna manera no puedo entenderla.

Supongamos que tenemos una moneda. La probabilidad de que el lanzamiento de la moneda salga cara es un valor desconocido X. El primer lanzamiento salió cara. ¿Cuál sería tu mejor conjetura sobre el valor X (así, si tu conjetura es y, tu tarea es minimizar $ |X - y| $ )?

A mí me parece que, dado el resultado del primer experimento, la moneda es un poco más probable que esté cargada de manera que salga cara más a menudo, por lo que la conjetura óptima sobre la probabilidad de que salga cara es 1. Pero no puedo formularlo de manera adecuada ni demostrarlo matemáticamente. Además, hay una opinión en otra comunidad (no matemática) en línea que la probabilidad 0,5 sería más probable. Creo que hay un flujo en alguna parte de mi lógica.

¿Puede ayudarme a entender este concepto? Gracias.

Actualización: para quien esté interesado, la pregunta surgió originalmente durante la discusión de El fenómeno del sesgo retrospectivo . Más concretamente, el resultado del experimento de Fischhoff y Beyth parece ser lógicamente correcto, ya que las diferencias en los resultados de las predicciones fueron causadas por las diferencias en la información dada a los grupos. Incluso si se pidió explícitamente a los estudiantes que no consideraran el resultado de los conflictos como el factor de probabilidad, lo único que afirma el experimento es que no podemos desechar cosas de nuestra percepción subconsciente del mundo a voluntad (y eso es obvio por la propia definición del subconsciente). Así que el fenómeno del sesgo retrospectivo no puede ser probado a través de dicho experimento ni de ninguno similar. El experimento debería mostrar la diferencia entre la probabilidad matemática y la probabilidad empírica dados los mismos datos iniciales.

13voto

lowglider Puntos 562

Hagamos esto utilizando la estadística bayesiana. Sea $p_0$ sea la distribución de probabilidad sobre el intervalo $[0,1]$ que describe nuestra creencia inicial en la probabilidad de varios valores del parámetro desconocido $X$ . Queremos actualizar esta distribución a partir del resultado de un experimento en el que se lanza la moneda y sale cara con probabilidad $X$ .

La probabilidad condicional $\mathrm P(\mathrm{heads} \mid X=x)$ de que la moneda salga cara, dado un determinado valor $x$ de $X$ es simplemente igual a $x$ . Así, por la regla de Bayes, la distribución de probabilidad posterior para $X$ dado que observamos que la moneda sale cara, viene dada por $$p(x) = \mathrm P(X=x \mid \mathrm{heads}) = \mathrm P(\mathrm{heads} \mid X=x) \frac{\mathrm P(X=x)}{\mathrm P(\mathrm{heads})} = x \frac{p_0(x)}{C} = x p_0(x) / C,$$

donde el factor de normalización $$C = \mathrm P(\mathrm{heads}) = \int_0^1 \mathrm P(\mathrm{heads} \mid X=x)\,\mathrm P(X=x)\,dx = \int_0^1 x p_0(x) \,dx$$ simplemente escala la distribución para que la masa de probabilidad total siga siendo uno.

(Nótese que aquí estoy abusando un poco de la notación al tratar las distribuciones como si fueran funciones y condicionar alegremente los eventos de probabilidad 0 como $X=x$ . Todo esto puede se haga riguroso, a costa de introducir alguna complejidad extra, pero no entraré en todo eso aquí).

Dada una determinada distribución a priori $p_0$ la distribución posterior $p$ se determinará completamente, y entonces podremos obtener un valor esperado para $X$ integrando sobre la distribución $p(x)$ ponderado por $x$ : $$\mathbb E[X \mid \mathrm{heads}] = \int_0^1 x p(x) \,dx.$$

En particular, si asumimos inicialmente cada valor de $X$ sean igualmente probables, de manera que $p_0(x) = 1$ entonces el a priori probabilidad $C$ de conseguir cabezas es simplemente $\int_0^1 x\,dx = \frac12$ y la distribución posterior es, por tanto, la siguiente $p(x) = x\frac 1C = 2x$ , dándonos $$\mathbb E[X \mid \mathrm{heads}] = \int_0^1 2x^2 \,dx = \frac23.$$

De hecho, si empezamos con la previa plana $p_0(x) = 1$ y observar $a$ cabezas y $b$ colas, la distribución posterior será la distribución beta $p(x) = x^a(1-x)^b / \int_0^1 x^a(1-x)^b \,dx$ y el valor esperado de $X$ será simplemente $$\mathbb E[X \mid a\text{ heads, }b\text{ tails}] = \frac{\int_0^1 x^{a+1}(1-x)^b \,dx}{\int_0^1 x^a(1-x)^b \,dx} = \frac{a+1}{a+b+2}.$$

Esta sencilla fórmula es exactamente igual a la regla de sucesión formulado por Laplace en el siglo XVIII para abordar el "problema de la salida del sol", es decir, la tarea de estimar la probabilidad de que el sol salga mañana, dada la evidencia de que lo ha hecho cada día durante al menos los últimos 5000 años. Su problema es exactamente el mismo que el de Laplace, salvo que, en lugar de 5000 años de observaciones diarias, sólo tiene uno. Así, el valor esperado de $\mathbb E[X] = \frac23$ que obtienes es también relativamente cercano a la estimación previa $\frac12$ .

2voto

imj Puntos 1182

Edit : Gracias a Aant, he podido arreglar mi razonamiento. ¿Debería haberla borrado en su lugar?

Supongamos que la probabilidad $X$ de la moneda que sale cara es una variable aleatoria uniforme en [0;1] (pdf f(t)=1). Sea $H$ sea el caso de que la primera tirada sea Cara.

$$P(H\cap (X\leq x)) = \int_0^x t\times f(t) dt = \frac{x^2}{2}$$

$$P(H) = \int_0^1 t\times f(t)dt = 0.5$$

Por eso:

$$P(X\leq x |H) = \frac{P(H\cap (X\leq x))}{P(H)}=x^2$$

Por lo tanto, nombrar $Y$ la variable aleatoria $X|H$ y $g$ su función de distribución de probabilidad, tenemos $$\int_0^x g(t)dt = x^2$$

Y por lo tanto $g(x)=2x$ . Ahora se trata de minimizar $|Y-y|$ para $y$ y eso se consigue con $y=E(Y)=\frac{2}{3}$

Por supuesto, esto podría adaptarse a cualquier distribución que no sea uniforme al principio.

1voto

mardat Puntos 356

Suponiendo que todo lo que sabes es que tu moneda puede salir cara o cruz, con una probabilidad desconocida de que ocurra cualquiera de las dos cosas, y dado que has lanzado la moneda una vez y ha salido cara, la probabilidad más probable de que el próximo lanzamiento salga cara es 1. La opinión de que 0,5 es la probabilidad más probable se deriva de nuestro propio conocimiento previo de las monedas: que 0,5 es la probabilidad más probable de que una moneda salga cara o cruz. Sin embargo, teniendo en cuenta lo que has dicho, tu afirmación es correcta. Sin embargo, tenga en cuenta que, aunque esta es la suposición óptima dado lo que sabes, no es necesariamente la suposición óptima en general, e ignora el pequeño tamaño de la muestra

1voto

Sh3ljohn Puntos 734

Esencialmente, para una variable aleatoria discreta, la estimación de la probabilidad de un evento específico de forma empírica se suele hacer utilizando frecuencias relativas; es decir, dividiendo el número de ocurrencias de un evento específico por el número total de experimentos. Con esta técnica, se obtendría una estimación de 1 para el suceso "cara", y ésa sería la mejor estimación.

Ahora bien, podrías hacerlo mejor, si supieras más. Si supones que sabes que la moneda sólo tiene dos caras (sólo dos sucesos posibles), y que parece razonable suponer una prioridad igual para ambos sucesos, podrías empezar con una probabilidad de 0,5 para la cara y de 0,5 para la cruz. Sin embargo, lo que hay que hacer con el primer experimento sigue siendo ambiguo y depende de cómo se haya escrito el modelo de estimación. Cuanto más permitas que un experimento afecte a tus conjeturas, más inestable será tu sistema (la conjetura no será muy fiable por muchos experimentos que haya). Por otro lado, cuantos más experimentos se permita que afecten a las conjeturas previas, más estable será el sistema, pero más lenta será la convergencia: sin embargo, con un número muy elevado de experimentos, las conjeturas deberían ser bastante precisas.

Puedes ver esto de forma más intuitiva si consideras que adivinar una previa de 1/2 para cada evento es equivalente a considerar dos montones de tamaño n. El número total de eventos que asumes para tu previa es 2n; esa es la "fuerza" de tu previa, el "crédito" que le das a tu conjetura en cierto modo. Ahora bien, cuanto más grande sea n, más estable será tu conjetura, pero si tu previa es errónea, necesitarás muchos experimentos para llegar a la conjetura correcta. ¿Está claro o no realmente?

0voto

kevtrout Puntos 2774

Tengo una pequeña corrección a las otras respuestas.

Como se ha señalado en otras respuestas, al hacer una actualización bayesiana sobre un previo uniforme se obtiene una distribución posterior de $p(X|H)=2X$ . A continuación, pasan a calcular el media de este posterior. Pero en realidad la pregunta nos pide un estimador $y$ minimizar $|X-y|$ . En realidad, esto se consigue con el mediana de la parte posterior, que es $\sqrt{2}/2$ . El media es lo que querrías si estuvieras tratando de minimizar $|X-y|^2$ .

(El modo también tiene una caracterización así, minimiza $|X-y|^0$ en el sentido de que está dada por $\lim_{p\rightarrow 0}\text{argmin}|X-y|^p$ .)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X