24 votos

El mejor enfoque para la selección del modelo Bayesiano o validación cruzada?

Cuando se trata de seleccionar entre varios modelos o el número de características que incluyen, por ejemplo la predicción puedo pensar en dos enfoques.

  1. Dividir los datos en conjuntos de pruebas y entrenamiento. Mejor aún, el uso de bootstrap o k-fold cross-validation. Tren en el conjunto de entrenamiento cada vez y calcular el error sobre el conjunto de prueba. Parcela de prueba de error vs número de parámetros. Generalmente, se puede conseguir algo como esto:enter image description here
  2. Calcular la probabilidad de que el modelo de la integración sobre los valores de los parámetros. es decir, calcular los $\int_\theta P(D|\theta)P(\theta)d \theta$, y el trazado de este contra el número de parámetros. A continuación, obtener algo como esto:enter image description here

Así que mis preguntas son:

  1. Son estos enfoques adecuados para la resolución de este problema (decidir cómo muchos de los parámetros a incluir en el modelo, o seleccionar entre una serie de modelos)?
  2. Son equivalentes? Probablemente no. Van a dar el mismo modelo óptimo bajo ciertas suposiciones o en la práctica?
  3. Aparte de la habitual diferencia filosófica de la especificación de los conocimientos previos en Bayesiano de modelos etc., ¿cuáles son los pros y los contras de cada enfoque? Que sería de usted eligió?

Actualización: También se encuentra el relacionado con la pregunta sobre la comparación de AIC y BIC. Parece que mi método 1 es asintóticamente equivalente a la AIC y el método 2 es asintóticamente relacionados con el BIC. Pero también he leído que hay que BIC es equivalente a Dejar-Uno-Fuera de CV. Eso significaría que la formación de error mínimo y Bayesiana de la Probabilidad máxima es equivalente donde LOO CV es equivalente a K veces la CV. Tal vez muy interesante artículo "Una teoría asintótica para el modelo lineal de selección" por Shao Jun se relaciona con estos temas.

16voto

John Richardson Puntos 1197

La optimización es la raíz de todos los males en las estadísticas! ;o)

En cualquier momento que usted trate de seleccionar un modelo basado en un criterio que es evaluado en una muestra finita de datos, se introduce un riesgo de sobre-ajuste del modelo criterio de selección y terminar con un peor modelo que el que comenzó. Tanto la validación cruzada y marginales de la probabilidad son sensibles modelo de criterios de selección, sino que es dependiente de una muestra finita de datos (como se AIC y BIC - la complejidad de la pena puede ser de ayuda, pero no soluciona este problema). He encontrado que esto es una cuestión substancial en el aprendizaje de máquina, consulte

G. C. Cawley y N. L. C. Talbot, Sobre-ajuste en el modelo de selección y posterior sesgo de selección en la evaluación de desempeño, Diario de La Máquina De Aprendizaje De La Investigación, 2010. La investigación, vol. 11, pp 2079-2107, De julio de 2010. (www)

A partir de un Bayesiano punto de vista, es mejor integrar sobre todas las opciones de modelo y de los parámetros. Si no optimizar o elegir nada, entonces se hace más difícil a la sobre-ajuste. La desventaja es que usted termina con difícil integrales, que a menudo necesitan ser resueltos con MCMC. Si quieres mejor el rendimiento predictivo, entonces yo sugeriría un completo enfoque Bayesiano; si se quiere entender los datos a continuación, la elección de un mejor modelo es a menudo útil. Sin embargo, si usted remuestrear los datos y terminar con un modelo diferente cada vez, significa que el procedimiento de ajuste es inestable y ninguno de los modelos son fiables para la comprensión de los datos.

Tenga en cuenta que una diferencia importante entre la validación cruzada y la evidencia es que el valor de la probabilidad marginal se supone que el modelo no está mal especificada (esencialmente la forma básica del modelo es adecuado) y puede dar resultados falsos si lo es. La validación cruzada no hace tal suposición, lo que significa que puede ser un poco más robusto.

14voto

guest Puntos 1851
  1. Son estos enfoques adecuados para la resolución de este problema (decidir cómo muchos de los parámetros a incluir en el modelo, o seleccionar entre una número de modelos)?

Podría ser, sí. Si usted está interesado en la obtención de un modelo que predice mejor, fuera de la lista de modelos que usted considere, la división/validación cruzada enfoque puede hacerlo bien. Si usted está interesado en la conocida que la de los modelos (en su lista de los supuestos de los modelos), en realidad es el que genera los datos, luego el segundo enfoque de la evaluación de la probabilidad posterior de los modelos) es lo que usted desea.

  1. Son equivalentes? Probablemente no. Van a dar el mismo modelo óptimo bajo ciertas suposiciones o en la práctica?

No, no son en general equivalente. Por ejemplo, el uso de AIC (Criterio de Información, por Akaike) para elegir el "mejor" modelo corresponde a la validación cruzada, aproximadamente. Uso de BIC (Criterio de Información Bayesiano) corresponde a la utilización de las probabilidades posteriores, aproximadamente. Estos no son el mismo criterio, por lo que uno debería esperar de ellos para llevar a diferentes opciones, en general. Se pueden dar las mismas respuestas - siempre que el modelo que predice mejor también pasa a ser la verdad -, pero en muchas situaciones el modelo que mejor se ajusta es en realidad uno que overfits, lo que conduce a un desacuerdo entre los enfoques.

¿Están de acuerdo en la práctica? Depende de lo que su 'práctica'. Intente de las dos formas y averiguar.

  1. Aparte de la habitual diferencia filosófica de la especificación de los conocimientos previos en Bayesiano de modelos etc., ¿cuáles son los pros y los contras de cada uno enfoque? Cuál escogerías?
  • Normalmente es mucho más fácil hacer los cálculos para la validación cruzada, en lugar de calcular probabilidades posteriores
  • Es difícil hacer un caso convincente de que el "verdadero" modelo está entre la lista de la que usted está eligiendo. Este es un problema para el uso de probabilidades posteriores, pero no de validación cruzada
  • Ambos métodos tienden a involucrar el uso de bastante constantes arbitrarias; ¿cuánto es una unidad extra de predicción de la pena, en términos de número de variables? ¿Cuánto creemos que cada uno de los modelos, a priori?
    • Yo probablemente elija la validación cruzada. Pero antes de comprometerse, me gustaría saber mucho acerca de por qué este modelo de selección que se realiza, es decir, lo que el modelo elegido iba a ser utilizado para. Ni la forma de modelo de selección puede ser apropiado, por ejemplo, si la inferencia causal es necesario.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X