9 votos

Ejemplo sencillo de cómo "Bayesian Model averaging" realmente funciona

Estoy tratando de seguir este tutorial en Bayesian Model averaging poniéndolo en el contexto de la machine-learning y las anotaciones que generalmente se utiliza (es decir):

X_train: la Formación de la Matriz; apagado = $(n, m)$;

y_train Objetivo de Vectores; apagado = $(n, )$ que se ajuste con la Formación de la Matriz (valores correctos);

x: vector de entrada de los atributos de una muestra; apagado = $(m,)$; y

s: salida de valor de predicción; $(1,)$ escalares [escalar por simplicidad] de valores de predicción).

Todos estos son descritos a continuación en el contexto de la Bayesiano...

.

Fuente describe esto como una Clase de modelos indexados por $m$: $$P(y| x,\theta, m)$$ $\theta$ : Conjunto de parámetros del modelo;

$m$ : El modelo de índice en un conjunto de modelos

.

Modelo Bayesiano De Selección:

$$P(y|x,D) = $$

$x$ : Input Data : $(n_{prueba}, m)$ shaped input array (rows = samples, cols = attributes);

$s$ : Output Prediction : $(n_{prueba},)$ length output vector of predictions based on $x$;

$D$ : Training Data : A tuple containing (i) $(n_{tren}, m)$ array of (rows = samples, cols = attributes); and (ii) $(n_{tren},)$ length vector containing the actual value/category described by training array

(please let me know if this is confusing and I will elaborate)

$$ = \int P(y|x,D,m)*P(m|x,D)dm$$ $$P(y|x,D,m) = \int P(y|x,\theta,m)*P(\theta|D,m)d\theta$$ $y$ $x$ son independientes de la $D$ $\theta$

En el video se dice que este promedio de las probabilidades de que se prevé para cada uno de los modelos. Los pesos promedio de con se $P(m|x,D)$ las distribuciones posteriores en $m$$D$.

Mi confusión:

Por favor alguien puede describir cómo este es un promedio de más modelos? ¿Usted termina con un posterior que se crea con todos los modelos? ¿De dónde viene el antes de ir en este contexto?

¿Cómo funciona la integración de más de todos los modelos de promedio de ellos? De lo que recuerdo, la integración da el área bajo la curva, pero en las estadísticas escucho a menudo el término "recapitulación o integración" parámetros/variables. ¿Qué significa eso exactamente?

Por favor, proporcione un ejemplo sencillo para que yo pueda entender cómo funciona esto :) Que sin duda será de utilidad para la gente tratando de entender cómo Bayesian Model averaging funciona exactamente. Voy a poner un enlace a esta en ese video, porque sé de otras personas que también estaban confundidos.

4voto

patfla Puntos 1

Un simple ejemplo de modelo de promedio es cuando usted está decidiendo el orden de un polinomio modelo

$$y_i=\sum_{j=0}^kx_i^j\beta_j+e_i $$

Así que no sabes las betas y usted también no se sabe el valor de $k $. Y $e_i\sim N (0,\sigma^2) $. Fijo $k $ usted tiene un problema de mínimos cuadrados -, con un adecuado antes de que se "regularice" de mínimos cuadrados. Al hacer el modelo de promedios, se puede pensar en un promedio ponderado de las predicciones para cada uno de los $k $. La ponderación será proporcional a algo como $\exp (-\frac {1}{2}BIC_k) $ en los casos en que el estado en las betas y el polinomio de orden son bastante uniformes ($BIC_k $ es el criterio de información bayesiano de los mínimos cuadrados del modelo de orden de $k $).

1voto

Lonnie Price Puntos 753

Yo creo que puede ayudar a pensar en esto como un dos de nivel "meta-modelo". Usted tiene algunos de la colección de modelos individuales (indexados por $m$) y, a continuación, usted tiene un meta-modelo, que es una distribución a través de los modelos individuales (o, equivalentemente, una distribución a través de los valores de $m$).

Usted puede pensar que el modelo de promedio como el trabajo en dos pasos:

  • Primero, usted tiene la posterior distribución predictiva para cada modelo de $m$ mediante la integración de su modelo de parámetros específicos de la $\theta$:

$$ P(y|x, D, m) = \int P(y|x, D, \theta, m)P(\theta| D, m)d\theta $$

  • Luego de recibir el posterior distribución predictiva para el meta-modelo, ahora la integración de la distribución a través de los modelos:

$$ P(y|x,D) = \int P(y|x, D, m)P(m|x, D)dm $$

A continuación, en la máquina de contexto de aprendizaje que iba a hacer predicciones acerca de $y$ sobre la base de su posterior distribución predictiva dada la observada covariables $x$.

Para responder a su pregunta, el segundo paso es donde este es el modelo de promedio. Cuando "integrar" o "suma" de un parámetro (por cierto, usted puede pensar en ellos como la misma operación continua y distribuciones discretas, respectivamente), lo que equivale a tomar el valor esperado de una determinada cantidad (es decir, un promedio) a través de ese parámetro. En este caso, usted está tomando el valor esperado de la parte posterior de la densidad de $y$, que es la definición de una posterior distribución predictiva.

Como a los priores, vas a tener dos conjuntos de ellos en este modelo: una antes de cada modelo,$m$, y previo para el meta-modelo en diferentes $m$. Ellos serán un factor en la determinación de la parte posterior de las distribuciones de los parámetros que hemos integrado (es decir,$P(\theta|D,m)$$P(m|x,D)$).

He de señalar que en este modelo los autores, aparentemente, han especificado que la parte posterior de más de $m$ podría depender de la prueba predictores $x$, pero la parte posterior de la $\theta$ no. Es decir, $x$ podrían influir en la forma que el peso de los distintos modelos, pero no de cómo el peso de los parámetros de cada modelo. No creo que un loco elección, pero no es la única manera de hacer esto.

Bien. Un ejemplo de ello. No puedo pensar en una máquina de aprendizaje ejemplo de que es simple, pero aquí es más fácil que el libro de texto de estadística ejemplo. En este modelo los modelos individuales se van a distribuciones normales con un fijo de la varianza $\sigma^2$, y una sección media de $\mu$. La colección de distribuciones (el meta-modelo) es a través de diferentes valores de $\sigma^2$. Así que aquí $\theta = \mu$$m = \sigma^2$. El estándar antes de $\mu|\sigma^2$ es una distribución normal y, a continuación, antes de la $\sigma^2$ es un inverso de distribución gamma. Usted puede demostrar que la parte posterior de la distribución predictiva $y$ $\mu$ da un valor fijo de $\sigma^2$ es otra distribución normal con su media tirado en la dirección de la media de la muestra. Luego de integrar (modelo de promedio) $\sigma^2$, y la posterior distribución predictiva se convierte en una t-Student la distribución de más de $y$. Esencialmente, usted consigue algo que se ve un poco como una distribución normal, pero tiene colas de grasa debido a que usted ha promediado sobre las distintas posibilidades de la varianza.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X