24 votos

La validación cruzada vs empírico de Bayes para calcular hyperparameters

Dado un modelo jerárquico $p(x|\phi,\theta)$, quiero un proceso en dos etapas para ajustar el modelo. En primer lugar, fijar un puñado de hyperparameters $\theta$, y, a continuación, hacer inferencia Bayesiana en el resto de los parámetros $\phi$. Para la fijación de la hyperparameters estoy considerando dos opciones.

  1. El uso Empírico de Bayes (EB) y maximizar la probabilidad marginal $p(\mbox{all data}|\theta)$ (integrando el resto de la modelo que contiene altas dimensiones de los parámetros).
  2. El uso de la Validación Cruzada (CV) técnicas tales como la $k$-fold cross validation para elegir a $\theta$ que maximiza la probabilidad de $p(\mbox{test data}|\mbox{training data}, \theta)$.

La ventaja de EB es que puedo usar todos los datos a la vez, mientras que para el CV necesito (potencialmente) calcular el modelo de probabilidad varias veces y la búsqueda de $\theta$. El rendimiento de EB y CV son comparables en muchos casos, y a menudo EB es más rápido de estimación.

Pregunta: ¿existe un fundamento teórico que vincula a los dos (es decir, EB y CV son los mismos en el límite de grandes cantidades de datos)? O enlaces EB para algunos la posibilidad de generalizar el criterio tales como empírico riesgo? Alguien puede presumir de un buen material de referencia?

18voto

John Richardson Puntos 1197

Dudo que habrá un vínculo teórico que dice que el CV y la evidencia de maximización son asintóticamente equivalentes, así como la evidencia nos dice que la probabilidad de que los datos dados los supuestos del modelo. Por lo tanto, si el modelo está mal especificado, entonces, la evidencia puede ser poco fiable. La validación cruzada sobre la otra mano le da una estimación de la probabilidad de los datos, si los supuestos utilizados en la modelización son correctos o no. Esto significa que la evidencia puede ser una mejor guía si la modelización suposiciones son correctas con menos datos, pero de validación cruzada será robusto contra el modelo de mala especificación. CV es assymptotically imparcial, pero supongo que la evidencia no es menos que los supuestos del modelo pasar a ser exactamente correcta.

Esta es, esencialmente, mi intuición y experiencia; yo también estaría interesado en escuchar acerca de la investigación sobre este.

Tenga en cuenta que para muchos de los modelos (por ejemplo, regresión ridge, Gauss procesos, núcleo regresión ridge/LS-SVM etc) leave-one-out cross-validación puede ser realizada al menos tan eficaz como la estimación de las pruebas, por lo que no es necesariamente una ventaja computacional allí.

Addendum: Tanto los marginales de la probabilidad y de la cruz-la validación de las estimaciones de rendimiento son evaluados a través de una muestra finita de datos, y por lo tanto siempre hay una posibilidad de sobre-ajuste si un modelo se ajusta mediante la optimización de los criterios. Para muestras pequeñas, la diferencia en la varianza de los dos criterios, puede decidir lo que funciona mejor. Ver mi artículo

Gavin C. Cawley, Nicola L. C. Talbot, "En Más de ajuste en el Modelo de Selección y Posterior Sesgo de Selección en la Evaluación de Desempeño", Revista de la Máquina de Aprendizaje de la Investigación, 11(Julio):2079-2107, 2010. (pdf)

-1voto

andynormancx Puntos 234

Si usted no tiene los otros parámetros de $k$, luego EB es idéntica a la CV, excepto que usted no tiene que buscar. Usted dice que usted está integrando a cabo $k$ en ambos CV y EB. En ese caso, son idénticos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X