Loading [MathJax]/jax/element/mml/optable/BasicLatin.js

11 votos

¿Por qué nos referimos al denominador del teorema de Bayes como "probabilidad marginal"?

Consideremos la siguiente caracterización del teorema de Bayes:

Teorema de Bayes

Dados algunos datos observados x la probabilidad posterior de que el parámetro Θ tiene el valor θ es p(θx)=p(xθ)p(θ)/p(x) , donde p(xθ) es la probabilidad, p(θ) es la probabilidad a priori del valor θ y p(x) es la probabilidad marginal del valor x .

¿Hay alguna razón especial por la que llamamos p(x) ¿la "probabilidad marginal"? ¿Qué tiene de "marginal"?

6voto

Graham Kemp Puntos 29085

Si se considera que una distribución conjunta es una tabla de valores en columnas y filas con sus probabilidades introducidas en las celdas, entonces la "distribución marginal" se encuentra sumando los valores de la tabla a lo largo de las filas (o columnas) y escribiendo el total en los márgenes de la tabla.

XΘ 01XΘ00.150.350.510.200.300.5ΘX0.350.65 

6voto

Joel Salisbury Puntos 116

Para mí, el teorema de Bayes consiste en invertir las funciones de probabilidad, y en ese contexto llamarlo probabilidad marginal tiene sentido.

  • Digamos que tengo una observación c ,
  • y un conjunto de estados s={s1,,sn} que podría estar causando esa observación.
  • Y cada uno de esos estados también define una probabilidad: P(csi)
  • también tenemos una previa P(si) (Asumo que ya has motivado lo anterior, si no es así haz otra pregunta en este sitio)
  • Así que quiero saber el estado, basado en la variable
  • Si sólo quisiera saber cuál es el estado más probable, y cómo se comparan entre sí, podría definir una función de puntuación, combinando la probabilidad de nuestra observación dado que estamos en el estado, con la probabilidad base de estar en el estado: scorec(si)=P(csi)P(si)
  • Entonces, para encontrar el estado más probable s Yo sólo encontraría el argmax s=argmaxsisscorec(si)=argmaxsisP(csi)P(si)
  • La función de puntuación es muy bonita. Podemos pensar en un vector de puntuación, que tiene todas las puntuaciones y podemos ver cuál es la más probable, y cuál es la menos. Pero no se suma a uno. Nos gustaría que la suma fuera de uno -- lo normalizaríamos y lo llamaríamos probabilidad (aunque no lo sea -- pero resultará que lo es). Nuestra puntuación normalizada sólo depende de c por lo que será P(sic) La justificación adecuada de esto está fuera del alcance de esta respuesta. La puntuación normalizada viene dada por P(sic)=scorec(si)sjsscorec(sj)=P(csi)P(si)sjsP(csj)P(sj)
    • lo anterior es una forma muy útil del Teorema de Bayes.
    • veamos más de cerca el resultado final: sjsP(csj)P(sj)=sjsP(c,sj)
  • Así que estamos sumando la probabilidad conjunta, sobre todos los posibles valores que puede tomar uno de sus campos. Esa es la propia definición de la probabilidad marginal del otro campo. P(c)=sjsP(c,sj)
  • Nuestro fondo como -- el factor de normalización para que sume a uno -- que es sólo la probabilidad marginal de c . Sustituyendo eso de nuevo: P(sic)=P(csi)P(si)P(c)

Así que el resultado final P(c) era sólo una probabilidad marginal, que encontramos sumando sobre todos los valores posibles para el otro campo ( si ) en la línea superior.

3voto

Chappers Puntos 20774

La explicación que me dieron cuando me enseñaron las probabilidades condicionales es que si elaboras una tabla con las probabilidades p(x,y) , entonces las sumas de fila/columna p(x)=yp(x,y) (por la ley de la probabilidad total) se escriben en el márgenes de la mesa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X