Tengo un clasificador y estoy utilizando la validación cruzada leave one out para evaluar su rendimiento.
En cada iteración, divido el conjunto de datos en conjuntos de entrenamiento y de prueba. El conjunto de prueba es sólo el tema que voy a evaluar (dejar uno fuera).
Ahora, yo dividir el conjunto de entrenamiento en pliegues, y hago la selección de características así:
Dirijo mi filtro algoritmo de selección de características en cada pliegue. Cuando termino, tengo un algoritmo de votación para obtener el conjunto final con las características que se seleccionaron en cada pliegue.
Entiendo que este procedimiento es adecuado cuando se tiene una muestra pequeña como en mi caso (sujetos = 30, características = 960).
Mi pregunta es: ¿por qué sería una mala idea hacer la selección de características en todo el conjunto de entrenamiento en lugar de dividirlo en pliegues?