8 votos

Puedo realizar una búsqueda exhaustiva con validación cruzada para la selección de características?

He estado leyendo algunos de los mensajes sobre la función de selección y validación cruzada, pero todavía tengo preguntas sobre el procedimiento correcto.

Supongamos que tengo un conjunto de datos con 10 características y quiero seleccionar las mejores características. También supongamos que yo estoy usando uno-clasificador del vecino más cercano. Puedo realizar una búsqueda exhaustiva mediante la validación cruzada para la estimación de la tasa de error como guía para elegir las mejores características? Algo como el siguiente pseudo-código

for i=1:( 2^10 -1)
   error(i)= crossval(1-nn, selected_fetures(i))
end   

i=find(erro(i)==min(error(i));
selected_fetures= selected_features(i);

Lo que estoy tratando de explicar en este pseudo código es que me estoy quedando en la validación cruzada para todas las posibles combinaciones de características y elegir la combinación que da el mínimo de error.

Creo que este procedimiento es correcto porque estoy realizando una búsqueda exhaustiva. La elección de las características que no se basa en el conjunto de datos completo, pero en el promedio de error en cada partición. Soy el sobreajuste del modelo con función de selección?

10voto

John Richardson Puntos 1197

Sí, es probable que terminan con más ajustada en este caso, véase mi respuesta a esta pregunta anterior. La cosa importante a recordar es que la validación cruzada es una estimación de la generalización de rendimiento basado en una muestra finita de datos. Como se basa en una muestra finita de datos, el estimador tiene un valor distinto de cero de la varianza, por lo que en cierta medida la reducción de la cruz-error de validación, el resultado será una combinación de opciones de modelo que mejoren realmente la generalización de error y de opciones de modelo que simplemente aprovechar el azar de las peculiaridades de la muestra particular de datos en los que se evalúa. El último tipo de modelo de elección es probable que la generalización de rendimiento peor en lugar de mejor.

La sobre-ajuste es un potencial problema cada vez que minimizar cualquier estadística basada en una muestra finita de datos, la validación cruzada no es diferente.

0voto

Gulzar Nazim Puntos 35342

Creo que este es un procedimiento válido para la selección de características, que no es más propenso a sobreajuste que otra característica de los procedimientos de selección. El problema con este procedimiento es que no tiene gran complejidad computacional y apenas puede ser utilizado para la real conjuntos de datos.

0voto

noah Puntos 61

Creo que si haces la selección de características en el interior de cada pliegue de la validación cruzada que va a estar bien. Como carteles por encima del estado que se overfit en cualquier modelo con las características seleccionadas, obtenido a partir del procedimiento descrito anteriormente. Esto es debido a que todos los datos tenido una cierta influencia en la selección de la función de rutina.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X