En su documento Selección de modelos lineales mediante validación cruzada Jun Shao muestra que para el problema de la selección de variables en la regresión lineal multivariante, el método de validación cruzada leave-one-out (LOOCV) es "asintóticamente inconsistente". En pocas palabras, tiende a seleccionar modelos con demasiadas variables. En un estudio de simulación, Shao demuestra que, incluso con tan sólo 40 observaciones, LOOCV puede obtener peores resultados que otras técnicas de validación cruzada.
Este artículo es algo controvertido y algo ignorado (10 años después de su publicación, mis colegas de quimiometría nunca habían oído hablar de él y utilizaban alegremente LOOCV para la selección de variables...). También existe la creencia (yo soy culpable de ello) de que sus resultados van un poco más allá de su limitado alcance original.
La pregunta es: ¿hasta dónde llegan estos resultados? ¿Son aplicables a los siguientes problemas?
- ¿Selección de variables para regresión logística/GLM?
- ¿Selección de variables para la clasificación Fisher LDA?
- ¿Selección de variables mediante SVM con espacio de núcleo finito (o infinito)?
- ¿Comparación de modelos de clasificación, por ejemplo SVM con diferentes núcleos?
- Comparación de modelos en regresión lineal, digamos ¿comparar MLR con Ridge Regression?
- etc.