He estado leyendo algunos de los mensajes sobre la función de selección y validación cruzada, pero todavía tengo preguntas sobre el procedimiento correcto.
Supongamos que tengo un conjunto de datos con 10 características y quiero seleccionar las mejores características. También supongamos que yo estoy usando uno-clasificador del vecino más cercano. Puedo realizar una búsqueda exhaustiva mediante la validación cruzada para la estimación de la tasa de error como guía para elegir las mejores características? Algo como el siguiente pseudo-código
for i=1:( 2^10 -1)
error(i)= crossval(1-nn, selected_fetures(i))
end
i=find(erro(i)==min(error(i));
selected_fetures= selected_features(i);
Lo que estoy tratando de explicar en este pseudo código es que me estoy quedando en la validación cruzada para todas las posibles combinaciones de características y elegir la combinación que da el mínimo de error.
Creo que este procedimiento es correcto porque estoy realizando una búsqueda exhaustiva. La elección de las características que no se basa en el conjunto de datos completo, pero en el promedio de error en cada partición. Soy el sobreajuste del modelo con función de selección?