Recientemente he leído mucho en este sitio (@Aniko, @Dikran Marsupial, @Erik) y en otros lugares sobre el problema del sobreajuste que ocurre con la validación cruzada - (Smialowski et al 2010 Bioinformatics, Hastie, Elements of statistical learning). La sugerencia es que cualquier La selección supervisada de características (utilizando la correlación con las etiquetas de clase) realizada fuera de la estimación del rendimiento del modelo utilizando la validación cruzada (u otro método de estimación del modelo como el bootstrapping) puede dar lugar a un sobreajuste.
Esto me parece poco intuitivo: seguramente si se selecciona un conjunto de características y luego se evalúa el modelo utilizando sólo las características seleccionadas utilizando la validación cruzada, entonces se obtiene una estimación insesgada del rendimiento del modelo generalizado en esas características (esto supone que la muestra en estudio es representativa de la población)?
Por supuesto, con este procedimiento no se puede afirmar que el conjunto de características sea óptimo, pero sí se puede dar por válido el rendimiento del conjunto de características seleccionado en datos no vistos.
Acepto que la selección de características basada en todo el conjunto de datos puede dar lugar a alguna fuga de datos entre los conjuntos de prueba y de entrenamiento. Pero si el conjunto de características es estático después de la selección inicial, y no se realiza ningún otro ajuste, seguramente es válido informar de las métricas de rendimiento validadas de forma cruzada.
En mi caso tengo 56 funciones y 259 casos, por lo que #casos > #funciones. Las características se derivan de los datos de los sensores.
Pido disculpas si mi pregunta parece derivada, pero me parece un punto importante que hay que aclarar.
Editar: Al implementar la selección de características dentro de la validación cruzada en el conjunto de datos detallado anteriormente (gracias a las respuestas más abajo), puedo confirmar que la selección de características antes de la validación cruzada en este conjunto de datos introdujo un significativo de la tendencia. Este sesgo/sobreajuste fue mayor cuando se hizo para una formulación de 3 clases, en comparación con la formulación de 2 clases. Creo que el hecho de haber utilizado la regresión por pasos para la selección de características aumentó este sobreajuste; a efectos de comparación, en un conjunto de datos diferente pero relacionado, comparé una rutina de selección de características secuencial hacia delante realizada antes de la validación cruzada con los resultados que había obtenido previamente con la selección de características dentro de la CV. Los resultados entre ambos métodos no difirieron de forma drástica. Esto puede significar que la regresión escalonada es más propensa al sobreajuste que la FS secuencial o puede ser una peculiaridad de este conjunto de datos.
11 votos
No creo que eso sea (del todo) lo que Hastie, et al. defienden. El argumento general es que si la selección de características utiliza la respuesta entonces es mejor que se incluya como parte de su procedimiento de CV. Si hace una selección de predictores, por ejemplo, mirando sus varianzas muestrales y excluyendo los predictores con una variación pequeña, eso está bien como procedimiento único.
4 votos
+1 sin embargo, incluso en este caso la validación cruzada no representa la varianza en el proceso de selección de características, lo que podría ser un problema si la selección de características es inestable. Si se realiza el cribado en primer lugar, la variabilidad del rendimiento en cada pliegue no representará la verdadera variabilidad. Si realiza el cribado en cada pliegue, aumentará adecuadamente la variabilidad del rendimiento en cada pliegue. Yo siempre realizaría el cribado en cada uno de los pliegues si pudiera permitirme el gasto computacional.
2 votos
Creo que la afirmación "CUALQUIER selección de características realizada antes de la estimación del rendimiento del modelo utilizando la validación cruzada puede dar lugar a un sobreajuste" es una cita errónea o una tergiversación de lo que Hastie y otros sugieren. Si se cambia la palabra "previa" por "sin" tiene más sentido. Además, la frase parece sugerir que la validación cruzada es la única forma de probar legítimamente la idoneidad de las variables seleccionadas. El bootstrap, por ejemplo, podría ser otro enfoque legítimo.
0 votos
@MichaelChernick - de acuerdo. He editado arriba para reflejar mejor mi significado.
1 votos
@Bgreene: hay una discusión reciente sobre este tema que se puede leer en goo.gl/C8BUa .
0 votos
@Alekk: El enlace está muerto, por desgracia.