Loading [MathJax]/jax/element/mml/optable/BasicLatin.js

7 votos

¿Por qué estructurar el aprendizaje para las redes bayesianas?

Dado un muy amplio conjunto de datos, si nuestro objetivo es hacer inferencia probabilística, ¿cuáles son las principales ventajas del aprendizaje de una red Bayesiana a partir de los datos y, a continuación, utilizar la red Bayesiana para calcular probabilidades condicionales? Veo que también podríamos aproximar estas probabilidades directamente desde el conjunto de datos de conteo. Además, si el conjunto de datos es lo suficientemente grande, también se podría tratar de usar la CLT/WLLN para calcular los intervalos de confianza. ¿Por qué sería mejor para la construcción de una red Bayesiana (duro problema de optimización) y hacer inferencia (paso de mensajes algoritmos)? Algún tipo de sobre-ajuste argumento?

Gracias!

2voto

siliconpi Puntos 524

Gran pregunta! Por lo que he visto, la gente suele hacer inferencia dada la estructura y asumir la estructura es un hecho. No he visto a la gente hacer la estructura de aprendizaje (que es un problema difícil como usted y otros han señalado) sólo para hacer inferencia.

Las redes bayesianas codificar independencia condicional de la estructura, por lo que el aprendizaje de la estructura es útil si usted quiere entender/explicar las dependencias entre variables aleatorias. Por ejemplo, si tiene tres variables aleatorias (tabaco, alquitrán en los pulmones, cáncer), es muy probable que usted encontrará que todas estas variables están asociados unos con otros (es decir, tomadas de a pares, las variables no son independientes el uno del otro). Sin embargo, si la estructura de aprendizaje, también se puede aprender el hecho de que el tabaco es independiente de cáncer debido a la cantidad de residuos de alquitrán en los pulmones.

Con el fondo y el conocimiento de un dominio también es posible utilizar la estructura de la red Bayesiana para argumentar de modo convincente o apoyo hipótesis causal.

0voto

Diego Torres Puntos 126

En un Bayesiano Creencia de Red (BBN), la probabilidad conjunta se puede descomponer. Supongamos la siguiente.

  • U = {X1, X2, X3, X4 }, U es un conjunto de variables
  • P(U) = P(X1, X2, X3, X4), P es la probabilidad conjunta

Usando la regla de la cadena, se puede descomponer la P de la siguiente manera

P(U)=P(X1,X2,X3,X4)=P(X1)P(X2|X1)P(X3|X1,X2)P(X4|X1,X2,X3)

Porque un BBN satisface la condición de Markov, se puede descomponer P de la siguiente manera.

P(U)=iP(Xi|pa(Xi))

Digamos que la BBN estructura, su gráfico acíclico dirigido (DAG), de hecho es la siguiente.

X1> X2> X3 -> X4

A continuación,

P(U)=P(X1,X2,X3,X4)=P(X1)P(X2|X1)P(X3|X2)P(X4|X3)

¿Ve usted la eficiencia de la computación P utilizando la condición de Markov frente a la Regla de la Cadena?

Un ejemplo más concreto. Digamos que todas las variables son binarias y asumir los valores sí/no. Digamos que usted observar

  • X1=sí, X2=sí, X3=no,

y desea predecir los estados de X4. Cómo hacer esto?

Si usted no tiene la estructura (DAG), entonces usted puede hacer recuentos (como se dijo en su post) para calcular las probabilidades condicionales.

P(X4=yes|X1=yes,X2=yes,X3=no)

y

P(X4=no|X1=yes,X2=yes,X3=no)

Pero, si usted tiene el DAG, usted sabe que usted puede hacer lo siguiente.

P(X4=yes|X3=no)

y

P(X4=no|X3=no)

Que es más rápido para calcular, incluso si usted apenas está contando, con o sin el DAG?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X