Friedman, Hastie y Tibshirani (2010) , citando Los elementos del aprendizaje estadístico escriba,
A menudo utilizamos la regla del "error estándar" a la hora de seleccionar el mejor modelo; esto reconoce el hecho de que las curvas de riesgo se estiman con error, por lo que peca de parsimonia.
La razón para utilizar un error estándar, en lugar de cualquier otra cantidad, parece ser porque es, bueno... estándar. Krstajic, et al (2014) escribe (el énfasis en negrita es mío):
Breiman et al. [25] han encontrado en el caso de la selección del tamaño óptimo del árbol para modelos de árboles de clasificación que el tamaño del árbol con el mínimo error de validación cruzada genera un modelo que generalmente se ajusta en exceso. Por lo tanto, en la Sección 3.4.3 de su libro, Breiman et al. [25] definen la regla de un error estándar (regla 1 SE) para elegir un tamaño de árbol óptimo, y la implementan a lo largo del libro. Para calcular el error estándar para la validación cruzada de un solo pliegue V, es necesario calcular la precisión para cada pliegue, y el error estándar se calcula a partir de las precisiones V de cada pliegue. Hastie et al. [4] definen la regla de 1 SE como la selección del modelo más parsimonioso cuyo error no está más de un error estándar por encima del error del mejor modelo, y sugieren en varios lugares el uso de la regla de 1 SE para la validación cruzada en general. El punto principal de la regla de 1 SE, con la que estamos de acuerdo, es elegir el modelo más simple cuya precisión sea comparable con el mejor modelo .
La sugerencia es que la elección de un error estándar es totalmente heurística, basada en el sentido de que un error estándar normalmente no es grande en relación con el rango de $\lambda$ valores.