Estoy tratando de seguir este tutorial en Bayesian Model averaging poniéndolo en el contexto de la machine-learning
y las anotaciones que generalmente se utiliza (es decir):
X_train: la Formación de la Matriz; apagado = $(n, m)$;
y_train Objetivo de Vectores; apagado = $(n, )$ que se ajuste con la Formación de la Matriz (valores correctos);
x: vector de entrada de los atributos de una muestra; apagado = $(m,)$; y
s: salida de valor de predicción; $(1,)$ escalares [escalar por simplicidad] de valores de predicción).
Todos estos son descritos a continuación en el contexto de la Bayesiano...
.
Fuente describe esto como una Clase de modelos indexados por $m$: $$P(y| x,\theta, m)$$ $\theta$ : Conjunto de parámetros del modelo;
$m$ : El modelo de índice en un conjunto de modelos
.
Modelo Bayesiano De Selección:
$$P(y|x,D) = $$
$x$ : Input Data : $(n_{prueba}, m)$ shaped input array (rows = samples, cols = attributes);
$s$ : Output Prediction : $(n_{prueba},)$ length output vector of predictions based on $x$;
$D$ : Training Data : A tuple containing (i) $(n_{tren}, m)$ array of (rows = samples, cols = attributes); and (ii) $(n_{tren},)$ length vector containing the actual value/category described by training array
(please let me know if this is confusing and I will elaborate)
$$ = \int P(y|x,D,m)*P(m|x,D)dm$$ $$P(y|x,D,m) = \int P(y|x,\theta,m)*P(\theta|D,m)d\theta$$ $y$ $x$ son independientes de la $D$ $\theta$
En el video se dice que este promedio de las probabilidades de que se prevé para cada uno de los modelos. Los pesos promedio de con se $P(m|x,D)$ las distribuciones posteriores en $m$$D$.
Mi confusión:
Por favor alguien puede describir cómo este es un promedio de más modelos? ¿Usted termina con un posterior que se crea con todos los modelos? ¿De dónde viene el antes de ir en este contexto?
¿Cómo funciona la integración de más de todos los modelos de promedio de ellos? De lo que recuerdo, la integración da el área bajo la curva, pero en las estadísticas escucho a menudo el término "recapitulación o integración" parámetros/variables. ¿Qué significa eso exactamente?
Por favor, proporcione un ejemplo sencillo para que yo pueda entender cómo funciona esto :) Que sin duda será de utilidad para la gente tratando de entender cómo Bayesian Model averaging funciona exactamente. Voy a poner un enlace a esta en ese video, porque sé de otras personas que también estaban confundidos.