Dado un modelo jerárquico $p(x|\phi,\theta)$, quiero un proceso en dos etapas para ajustar el modelo. En primer lugar, fijar un puñado de hyperparameters $\theta$, y, a continuación, hacer inferencia Bayesiana en el resto de los parámetros $\phi$. Para la fijación de la hyperparameters estoy considerando dos opciones.
- El uso Empírico de Bayes (EB) y maximizar la probabilidad marginal $p(\mbox{all data}|\theta)$ (integrando el resto de la modelo que contiene altas dimensiones de los parámetros).
- El uso de la Validación Cruzada (CV) técnicas tales como la $k$-fold cross validation para elegir a $\theta$ que maximiza la probabilidad de $p(\mbox{test data}|\mbox{training data}, \theta)$.
La ventaja de EB es que puedo usar todos los datos a la vez, mientras que para el CV necesito (potencialmente) calcular el modelo de probabilidad varias veces y la búsqueda de $\theta$. El rendimiento de EB y CV son comparables en muchos casos, y a menudo EB es más rápido de estimación.
Pregunta: ¿existe un fundamento teórico que vincula a los dos (es decir, EB y CV son los mismos en el límite de grandes cantidades de datos)? O enlaces EB para algunos la posibilidad de generalizar el criterio tales como empírico riesgo? Alguien puede presumir de un buen material de referencia?