Actualmente estoy trabajando en un libro de texto de aprendizaje automático y acabo de leer un poco sobre la validación cruzada k-fold, y me pregunto lo siguiente. Quiero estimar un parámetro, por ejemplo, un parámetro de penalización para un método de probabilidad penalizada. Para ello, puedo hacer dos cosas diferentes:
-
Muestro los datos de entrenamiento para obtener $k$ pliegues igualmente grandes, y para cada pliegue utilizo los otros pliegues como datos de entrenamiento para obtener estimaciones para $y$ y comparo estas estimaciones con las reales $y$ del pliegue en cuestión. Esto, lo hago para cada elección interesante de mi parámetro, y elijo el parámetro que tiene el menor error, promediado sobre todos los pliegues y todos los miembros de cada pliegue.
-
Muestro los datos de entrenamiento para obtener 2 conjuntos igualmente grandes, uno de los cuales utilizo como datos de entrenamiento para predecir el error del otro conjunto. Para cada lambda interesante, anoto el error medio. A continuación, vuelvo a muestrear los datos para obtener 2 conjuntos (diferentes) igualmente grandes, en los que repito el procedimiento anterior. Muestro $k$ veces en total, y promediarlas para obtener una estimación del mejor parámetro.
El segundo enfoque parece bastante ingenuo, y me pregunto si hay algo malo en él. ¿Hay razones, en general, para preferir el método 1 al 2? ¿Hay razones computacionales, o incluso estadísticas?