7 votos

¿En qué punto validación cruzada se hace sobre entrenamiento?

He trabajado a menudo en los proyectos para los cuales los datos es abundante suficiente que puedo hacer k-fold cross validation (k=5 o k=10, normalmente). En mi experiencia, he utilizado esto como una forma de comparar los diferentes métodos de desarrollo o como una manera de poner a prueba las predicciones de un modelo, dejando 10-20% por todo el año y la predicción de las cuando no forma parte del modelo. Estándar de cosas.

Recientemente, he visto algunos trabajos en los que la validación cruzada se utiliza para construir el modelo. Por ejemplo, considere la posibilidad de avanzar paso a paso la función de selección en el que cada uno de los co-variable de ingresar el modelo es seleccionado basado en los k-fold cross-validation rendimiento como he descrito anteriormente. Este parece bien, pero en mi mente esto empieza a ser demasiado optimista, y tal vez en la frontera en el sobre-entrenamiento.

Además, he visto que esta hecho en el que varias carreras de la validación cruzada se realiza. En este caso, sería de 10 o más independiente de las carreras de la k-fold cross-validation, y los resultados de todos aquellos que corre agregada para seleccionar co-variables. Para mí, esto empieza a derrotar a todo el propósito de la validación cruzada.

Esta múltiple ejecutar enfoque no generar una distribución de los valores de rendimiento que pueden ser útiles para comparar diferentes métodos, pero para los fines de la construcción del modelo en sí, se parece a la frontera en el sobreentrenamiento.

¿Ha habido algún evaluaciones de los efectos de este tipo de enfoque en el modelo resultante y su capacidad para generalizar? He buscado y no encuentro nada que la dirección de la misma en la forma que he descrito.

6voto

cbeleites Puntos 12461

El exceso de optimismo con validación cruzada para la selección de la función de paso a paso

Como @KarlOveHufthammer ya se ha explicado, mediante validación cruzada (step-wise) selección de la función de los medios que la validación cruzada es parte del modelo de formación. De manera más general, esto se aplica a todos los tipos de datos impulsada por la selección de características, la comparación de los modelos o procedimientos de optimización.

Y sí, el problema de sobreajuste es mucho más pronunciada para el proceso iterativo de procedimientos de capacitación, tales como delantero de la selección.

(Y creo que quiere decir que los pasos sucesivos de la característica de selección en general, no es una buena idea - en mi humilde opinión sería mejor utilizar una regularización que selecciona las características de, por ejemplo, el LAZO)

Reiteró/Repetido $k$-fold cross validation derrotar a su propósito?

Reiteró aka repetido validación cruzada cubre una fuente particular de la varianza en el modelado de pruebas de cálculos: la inestabilidad de las predicciones, debido a ligeros cambios en la composición de los datos de entrenamiento, es decir, una visión particular sobre el modelo de inestabilidad. Esta es una información muy útil en caso de que quiera construir un modelo predictivo a partir de los datos particulares que ustedes tienen a la mano (para la aplicación particular). Esta variación se puede medir y reducir con éxito por las reiteradas/iterada de la validación cruzada (mismo es para fuera-de-arranque).

Otro prácticamente fuente muy importante de la varianza, al menos para el clasificador de los resultados de la validación es la varianza debida a la número finito de pruebas de los casos. La repetición de la validación cruzada no cambia el número de independientes de los casos de prueba, por lo que tampoco es la variación causada por este afectadas por las repeticiones. En el pequeño tamaño de la muestra de situaciones y, en particular, con figuras de mérito, que son las proporciones de la prueba de los casos (total exactitud, sensibilidad, especificidad, valores predictivos, etc.) los que sufren de una alta varianza, esta segunda fuente de variación puede ser el factor dominante de la incertidumbre.

Esta múltiple ejecutar enfoque no generar una distribución de los valores de rendimiento que pueden ser útiles para comparar diferentes métodos de

Tenga cuidado aquí: CV ¿ no cubierta de la varianza entre los conjuntos de entrenamiento de tamaño $n_{train}$ dibujado recién a partir de la subyacente de la población, sólo la varianza para el intercambio de un par de casos (ligeramente inquietante de los datos de entrenamiento) está cubierto. Así que usted puede ser capaz de comparar los diferentes métodos para el conjunto de datos a mano, pero estrictamente hablando no se puede extender a esa conclusión a un conjunto de datos de tamaño $n$.

Así que hay una gran diferencia aquí si su atención se centra en resolver el problema de la aplicación (con el método que sea) desde el conjunto de datos en la mano, o si usted interés son las propiedades del método o el subyacente de la población y no te preocupas por el particular conjunto de datos como lo es sólo un ejemplo.

Esta diferencia es la parte de la varianza que es subestimado por validación cruzada de Bengio del punto de vista (su foco está en los métodos, por lo que sería necesario la varianza de la tensión dialéctica entre los conjuntos de datos) en
Bengio, Y. y Grandvalet, Y. Sin Imparcial Estimador de la Varianza de K-Fold Cross-Validation Diario de la Máquina de la Investigación del Aprendizaje, 2004, 5, 1089-1105.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X