12 votos

¿Por qué se multiplican aquí las distribuciones de probabilidad?

Dejemos que $X$ sea, por ejemplo, el número de días que le quedan de vida. Un médico 1 evalúa la distribución de $X$ como una gaussiana: $P(X)\sim\mathcal{N}(\mu_1,\sigma_1)$ . Otro médico independiente 2 evalúa $P(X)\sim\mathcal{N}(\mu_2,\sigma_2)$ . Ambos médicos son igualmente fiables. ¿Cómo combinar ambas informaciones?

En este artículo del blog El autor dice que

Si tenemos dos probabilidades y queremos saber la posibilidad de que ambas sean ciertas, simplemente las multiplicamos. Así, tomamos las dos manchas gaussianas y las multiplicamos: enter image description here

Editar La mayoría de la gente (hice esta pregunta por primera vez en math.SE) ha respondido que se trata de la relación de independencia trivial $P(A\cap B)=P(A)P(B)$ pero sigo teniendo dificultades para entender lo que $A$ y $B$ en este contexto: probablemente no sean eventos como "el dado dará un 3" o "el paciente está enfermo". Además, es probable que haya algo más, porque el producto de dos densidades no es una densidad de probabilidad, ya que en general $\int_\mathbb{R} P(x)^2 \neq 1$ . Así que probablemente no sea tan sencillo.

Pongamos otro ejemplo. Un experto 1 te dice que un dado está perfectamente equilibrado. Otro experto 2 le dice, independientemente, lo mismo. Entonces la probabilidad de que el dado dé un 3 no es ciertamente $1/6^2$ .

10voto

jldugger Puntos 7490

Estas operaciones se realizan en probabilidades en lugar de probabilidades. Aunque la distinción puede ser sutil, has identificado un aspecto crucial: el producto de dos densidades es nunca una densidad.

El lenguaje en el blog insinúa esto -pero al mismo tiempo se equivoca sutilmente- así que vamos a analizarlo:

La media de esta distribución es la configuración para la que ambas estimaciones son más probables y, por lo tanto, es la mejor estimación de la verdadera configuración dada toda la información que tenemos.

  1. Ya hemos observado que el producto no es una distribución. (Aunque podría convertirse en una mediante la multiplicación por un número adecuado, no es eso lo que ocurre aquí).

  2. Las palabras "estimaciones" y "mejor estimación" indican que esta maquinaria se utiliza para estimar un parámetro -en este caso, la "verdadera configuración" (coordenadas x,y).

  3. Lamentablemente, el media es no la mejor suposición. El modo es. Este es el principio de máxima probabilidad (ML).

Para que la explicación del blog tenga sentido, tenemos que suponer lo siguiente. En primer lugar, existe una ubicación verdadera y definida. Llamémosla abstractamente $\mu$ . En segundo lugar, cada "sensor" no informa $\mu$ . En cambio, informa de un valor $X_i$ que es probable que esté cerca de $\mu$ . La "gaussiana" del sensor da la densidad de probabilidad para la distribución de $X_i$ . Para ser muy claros, la densidad para el sensor $i$ es una función $f_i$ , en función de $\mu$ con la propiedad de que para cualquier región $\mathcal{R}$ (en el plano), la probabilidad de que el sensor reporte un valor en $\mathcal{R}$ es

$$\Pr(X_i \in \mathcal{R}) = \int_{\mathcal{R}} f_i(x;\mu) dx.$$

En tercer lugar, se supone que los dos sensores funcionan con físico la independencia, que se considera que implica estadística la independencia.

Por definición, el probabilidad de las dos observaciones $x_1, x_2$ es la probabilidad densidades que tendrían en este reparto conjunto, dado la verdadera ubicación es $\mu$ . El supuesto de independencia implica que es el producto de las densidades. Para aclarar un punto sutil,

  1. La función de producto que asigna $f_1(x;\mu)f_2(x;\mu)$ a una observación $x$ es no una densidad de probabilidad para $x$ sin embargo,

  2. El producto $f_1(x_1;\mu)f_2(x_2;\mu)$ es el densidad conjunta para el par ordenado $(x_1, x_2)$ .

En la figura publicada, $x_1$ es el centro de una mancha, $x_2$ es el centro de otro, y los puntos dentro de su espacio representan posibles valores de $\mu$ . Obsérvese que ni $f_1$ ni $f_2$ pretende decir cualquier cosa sobre las probabilidades de $\mu$ ¡! $\mu$ es sólo una incógnita valor fijo . No es una variable aleatoria.

Aquí hay otro giro sutil: la probabilidad se considera una función de $\mu$ . Tenemos los datos sólo estamos tratando de averiguar qué $\mu$ es probable que sea. Por lo tanto, lo que tenemos que trazar es la función de probabilidad

$$\Lambda(\mu) = f_1(x_1;\mu)f_2(x_2;\mu).$$

Es una singular coincidencia que esto también sea una gaussiana. La demostración es reveladora. Hagamos los cálculos en una sola dimensión (en lugar de dos o más) para ver el patrón: todo se generaliza a más dimensiones. El logaritmo de una gaussiana tiene la forma

$$\log f_i(x_i;\mu) = A_i - B_i(x_i-\mu)^2$$

para las constantes $A_i$ y $B_i$ . Por lo tanto, la probabilidad logarítmica es

$$\eqalign{ \log \Lambda(\mu) &= A_1 - B_1(x_1-\mu)^2 + A_2 - B_2(x_2-\mu)^2 \\ &= C - (B_1+B_2)\left(\mu - \frac{B_1x_1+B_2x_2}{B_1+B_2}\right)^2 }$$

donde $C$ no depende de $\mu$ . Se trata del logaritmo de una gaussiana en la que el papel del $x_i$ se ha sustituido por la media ponderada que aparece en la fracción.

Volvamos al hilo principal. La estimación ML de $\mu$ es el valor que maximiza la probabilidad. Equivalentemente, maximiza esta gaussiana que acabamos de derivar del producto de las gaussianas. Por definición, el máximo es un modo . Es una coincidencia -resultante de la simetría puntual de cada gaussiana alrededor de su centro- que la moda coincida con la media.


Este análisis ha revelado que varias coincidencias en la situación particular han oscurecido los conceptos subyacentes:

  • una distribución multivariada (conjunta) se confundía fácilmente con una distribución univariada (que no lo es);

  • la probabilidad parecía una distribución de probabilidad (que no lo es);

  • el producto de las gaussianas resulta ser gaussiano (una regularidad que no suele ser cierta cuando los sensores varían de forma no gaussiana);

  • y su modo coincide con su media (lo que se garantiza sólo para los sensores con respuestas simétricas en torno a los valores reales).

Sólo si nos centramos en estos conceptos y despojamos de los comportamientos coincidentes podremos ver lo que realmente ocurre.

1 votos

Muchas gracias por esta maravillosa respuesta. Parece que la pregunta no es tan sencilla como parece. Realmente me preguntaba por qué me costaba tanto entender el concepto de independencia que creía conocer bien. Me tomaré mi tiempo para asegurarme de que todos los puntos están claros.

2 votos

Recompensa virtual +150. Cuando escribes "el producto de dos densidades es nunca una densidad", ¿qué pasa con la densidad uniforme en $[0,1]$ o la densidad reunida en 0? ¿No sería (incluso) mejor decir "es genéricamente no una densidad"?

1 votos

Tienes razón. Tenía en mente una desigualdad que puede convertirse en una igualdad cuando todos los valores de la densidad son cero, uno o infinito. Todos tus contraejemplos son de ese tipo.

6voto

Ian G Puntos 3498

Ya veo una excelente respuesta, pero sólo voy a publicar la mía, puesto que ya he empezado a escribirla.

El médico 1 tiene este modelo de predicción: $d_1\sim N(\mu_1, \sigma_1)$

El médico 2 tiene este modelo de predicción: $d_2\sim N(\mu_2, \sigma_2)$

Así que para que podamos evaluar la probabilidad conjunta $P(d_1,d_2)=P(d_1|d_2)P(d_2)$ sólo tenemos que darnos cuenta de que esto se factoriza en $P(d_1)P(d_2)$ desde $P(d_1|d_2)=P(d_1)$ debido a la independencia de los dos médicos.

2 votos

Un +1 virtual por los detalles de la limpieza. Es una pena que el sistema no me permita darte el verdadero +1.

0 votos

¿Cómo definiría usted $d_1$ como un evento? Por ejemplo "el dado da un 3" es un evento, también lo es "ganar más de 100". Aquí no puedo formularlo así, porque $d_1$ no tiene un pfd, es es un pfd. Por ejemplo, puedo calcular la probabilidad de que tenga $x$ días de vida según el médico 1, pero ¿cuál es la probabilidad de $d_1$ ?

0 votos

Tal vez estoy confundido porque entiendo $d_1$ como un evento, mientras que es una variable aleatoria. Entonces, $d_1$ es la variable aleatoria que describe el número de días restantes de acuerdo con la Física 1. Pero ¿cuál es el significado de la probabilidad conjunta de $P(d_1,d_2)$ y es un número real en $[0,1]$ ? ¿Y si $d_1$ toma el valor "3 días" y $d_2$ ¿toma el valor "4 días"? Espero que mis preguntas le ayuden a entender lo que me falta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X