3 votos

Selección de características en el conjunto de entrenamiento

Tengo un clasificador y estoy utilizando la validación cruzada leave one out para evaluar su rendimiento.

En cada iteración, divido el conjunto de datos en conjuntos de entrenamiento y de prueba. El conjunto de prueba es sólo el tema que voy a evaluar (dejar uno fuera).

Ahora, yo dividir el conjunto de entrenamiento en pliegues, y hago la selección de características así:

Dirijo mi filtro algoritmo de selección de características en cada pliegue. Cuando termino, tengo un algoritmo de votación para obtener el conjunto final con las características que se seleccionaron en cada pliegue.

Entiendo que este procedimiento es adecuado cuando se tiene una muestra pequeña como en mi caso (sujetos = 30, características = 960).

Mi pregunta es: ¿por qué sería una mala idea hacer la selección de características en todo el conjunto de entrenamiento en lugar de dividirlo en pliegues?

1voto

Runcible Puntos 539

La estimación dentro de la muestra de su predicción suele ser excesivamente optimista. Cuando se prueba el modelo con los mismos datos con los que se ha entrenado, el modelo parece ajustarse muy bien. Obtendrá una estimación más precisa de la verdadera capacidad de predicción de su modelo si realiza una validación cruzada (omitiendo uno o multiplicando por k). K-fold es mucho más rápido que dejar uno fuera, así que es lo que utilizo en muestras más grandes.

Al añadir variables adicionales al modelo, siempre se ajusta mejor a los datos de la muestra. Por ejemplo, en una regresión lineal, $R^{2}$ siempre aumenta cuando se añade otra variable al modelo. Eso no significa que añadir esa variable extra haya sido una buena idea. Si se añaden demasiadas variables, se acaba sobreajustando la muestra y no se hace un buen trabajo de predicción de los nuevos datos. Por lo tanto, el objetivo principal de la validación cruzada es evitar el sobreajuste del modelo y asegurarse de que se hace el mejor trabajo posible de predicción en un conjunto de datos desconocidos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X