El exceso de optimismo con validación cruzada para la selección de la función de paso a paso
Como @KarlOveHufthammer ya se ha explicado, mediante validación cruzada (step-wise) selección de la función de los medios que la validación cruzada es parte del modelo de formación. De manera más general, esto se aplica a todos los tipos de datos impulsada por la selección de características, la comparación de los modelos o procedimientos de optimización.
Y sí, el problema de sobreajuste es mucho más pronunciada para el proceso iterativo de procedimientos de capacitación, tales como delantero de la selección.
(Y creo que quiere decir que los pasos sucesivos de la característica de selección en general, no es una buena idea - en mi humilde opinión sería mejor utilizar una regularización que selecciona las características de, por ejemplo, el LAZO)
Reiteró/Repetido $k$-fold cross validation derrotar a su propósito?
Reiteró aka repetido validación cruzada cubre una fuente particular de la varianza en el modelado de pruebas de cálculos: la inestabilidad de las predicciones, debido a ligeros cambios en la composición de los datos de entrenamiento, es decir, una visión particular sobre el modelo de inestabilidad. Esta es una información muy útil en caso de que quiera construir un modelo predictivo a partir de los datos particulares que ustedes tienen a la mano (para la aplicación particular). Esta variación se puede medir y reducir con éxito por las reiteradas/iterada de la validación cruzada (mismo es para fuera-de-arranque).
Otro prácticamente fuente muy importante de la varianza, al menos para el clasificador de los resultados de la validación es la varianza debida a la número finito de pruebas de los casos. La repetición de la validación cruzada no cambia el número de independientes de los casos de prueba, por lo que tampoco es la variación causada por este afectadas por las repeticiones. En el pequeño tamaño de la muestra de situaciones y, en particular, con figuras de mérito, que son las proporciones de la prueba de los casos (total exactitud, sensibilidad, especificidad, valores predictivos, etc.) los que sufren de una alta varianza, esta segunda fuente de variación puede ser el factor dominante de la incertidumbre.
Esta múltiple ejecutar enfoque no generar una distribución de los valores de rendimiento que pueden ser útiles para comparar diferentes métodos de
Tenga cuidado aquí: CV ¿ no cubierta de la varianza entre los conjuntos de entrenamiento de tamaño $n_{train}$ dibujado recién a partir de la subyacente de la población, sólo la varianza para el intercambio de un par de casos (ligeramente inquietante de los datos de entrenamiento) está cubierto. Así que usted puede ser capaz de comparar los diferentes métodos para el conjunto de datos a mano, pero estrictamente hablando no se puede extender a esa conclusión a un conjunto de datos de tamaño $n$.
Así que hay una gran diferencia aquí si su atención se centra en resolver el problema de la aplicación (con el método que sea) desde el conjunto de datos en la mano, o si usted interés son las propiedades del método o el subyacente de la población y no te preocupas por el particular conjunto de datos como lo es sólo un ejemplo.
Esta diferencia es la parte de la varianza que es subestimado por validación cruzada de Bengio del punto de vista (su foco está en los métodos, por lo que sería necesario la varianza de la tensión dialéctica entre los conjuntos de datos) en
Bengio, Y. y Grandvalet, Y. Sin Imparcial Estimador de la Varianza de K-Fold Cross-Validation Diario de la Máquina de la Investigación del Aprendizaje, 2004, 5, 1089-1105.