Cuando se trata de seleccionar entre varios modelos o el número de características que incluyen, por ejemplo la predicción puedo pensar en dos enfoques.
- Dividir los datos en conjuntos de pruebas y entrenamiento. Mejor aún, el uso de bootstrap o k-fold cross-validation. Tren en el conjunto de entrenamiento cada vez y calcular el error sobre el conjunto de prueba. Parcela de prueba de error vs número de parámetros. Generalmente, se puede conseguir algo como esto:
- Calcular la probabilidad de que el modelo de la integración sobre los valores de los parámetros. es decir, calcular los $\int_\theta P(D|\theta)P(\theta)d \theta$, y el trazado de este contra el número de parámetros. A continuación, obtener algo como esto:
Así que mis preguntas son:
- Son estos enfoques adecuados para la resolución de este problema (decidir cómo muchos de los parámetros a incluir en el modelo, o seleccionar entre una serie de modelos)?
- Son equivalentes? Probablemente no. Van a dar el mismo modelo óptimo bajo ciertas suposiciones o en la práctica?
- Aparte de la habitual diferencia filosófica de la especificación de los conocimientos previos en Bayesiano de modelos etc., ¿cuáles son los pros y los contras de cada enfoque? Que sería de usted eligió?
Actualización: También se encuentra el relacionado con la pregunta sobre la comparación de AIC y BIC. Parece que mi método 1 es asintóticamente equivalente a la AIC y el método 2 es asintóticamente relacionados con el BIC. Pero también he leído que hay que BIC es equivalente a Dejar-Uno-Fuera de CV. Eso significaría que la formación de error mínimo y Bayesiana de la Probabilidad máxima es equivalente donde LOO CV es equivalente a K veces la CV. Tal vez muy interesante artículo "Una teoría asintótica para el modelo lineal de selección" por Shao Jun se relaciona con estos temas.