Elija $=^$ para minimizar el error cuadrático medio OOS.
Esta estrategia supone que tiene suficientes casos de prueba independientes para que el error en su estimación de OOS sea insignificante.
Tienes razón: si el error en las mediciones de OOS no es despreciable, esto puede causar un sesgo hacia modelos demasiado complejos. La razón es que si se compara
- muchos modelos de diversa complejidad
- que tienen esencialmente el mismo rendimiento (es decir, no se puede distinguir su rendimiento con la configuración de validación dada, especialmente el número total de casos de prueba dado),
- con una medida de rendimiento que está sujeta a una variación sustancial,
puede "rozar" la varianza: el mejor rendimiento observado puede deberse a una división (accidentalmente) favorable de los conjuntos de entrenamiento y prueba, en lugar de un rendimiento de generalización realmente mejor del modelo.
Véase por ejemplo Cawley, G. C. y Talbot, N. L. C.: On Over-fitting in Model Selection and Subsequent Selection Bias in Performance Evaluation, Journal of Machine Learning Research, 11, 2079-2107 (2010).
La siguiente suposición más débil es que hay algún error no despreciable en la estimación del OOS, pero esencialmente las mediciones individuales del OOS (para cada modelo sustituto) todavía se comportan independientemente unas de otras:
Elija el más grande $$ that is within one standard error (taken over all cross validation sets) of the $$ que minimiza el error cuadrático medio OOS.
De lo contrario, hay que tener en cuenta que, en realidad, los modelos varían poco (sólo se intercambian unos pocos casos de entrenamiento entre dos de los modelos sustitutos) y sólo hay un número finito de casos de prueba distintos. Esto significa que el cálculo habitual del error estándar sobrestimaría las mediciones del número efectivo ( $n$ ) y así subestimar el error estándar.
En consecuencia, en esta situación debería seleccionar un modelo aún menos complejo.