Validación cruzada (aplica únicamente para la validación/verificación) evita el uso doble de casos en el conjunto de entrenamiento y en el conjunto de prueba para el mismo modelo. Sin embargo, las estimaciones de rendimiento que se utilizan para seleccionar al parecer, la mejor de una variedad de modelos son, de hecho, parte del modelo de formación. Para la validación cruzada se utiliza para la selección del modelo o la optimización es parte de la formación y a continuación, una prueba de uso de datos que es desconocido para el todo el proceso de formación (incluyendo la selección de modelo).
La razón de esto es que la validación cruzada de los resultados son sólo estimaciones (o medidas) de rendimiento modelo: están sujetos a sesgo y la varianza, es decir, sistemáticos y errores aleatorios.
debido a que la muestra puede no ser representativa, los métodos anteriores puede que más de/menos-estimación de la verdadera desempeño del modelo,
Que es otra manera de decir, no hay variación en la estimación de rendimiento además de un posible sesgo. Esto es cierto para cualquier tipo de medición de los resultados (estimación basada en las pruebas de los casos): la muestra de prueba (ya sea retenido por la validación cruzada o en cualquier otra forma) sin darse cuenta puede contener más fácil casos o casos más difíciles. Así que tendrás que esperar algo de la varianza cuando se prueba el mismo modelo con diferentes conjuntos de la prueba. En el remuestreo de validación (incluida la validación) tiene una fuente adicional de variación: de que son en realidad pruebas de sustituto de los modelos que se supone son lo suficientemente similares para el modelo formado en el conjunto de los datos (para la cual el rendimiento de la estimación se utiliza) para ser considerados equivalentes a efectos prácticos. Sin embargo, si su procedimiento de entrenamiento no es estable, vas a ver la diferencia que existe entre el sustituto de los modelos, que también se sumará a la varianza de la validación cruzada para el cálculo.
Así que terminamos con un casi imparcial, pero un poco ruidoso estimación de rendimiento ...
y así vamos tienden a elegir aquellos que se desempeñan mejor en virtud de los datos seleccionados,
Así que sí, a la hora de recoger el parecer de mejor desempeño del modelo, vamos a "quitar el ruido", es decir, modelos que accidentalmente se ven bien con la validación cruzada split hicimos serán favorecidas.
El riesgo de rozar la varianza (= sobreajuste, seleccionando el modelo equivocado) aumenta con la
- número creciente de comparación de modelos
- el aumento de la varianza de la incertidumbre en las estimaciones de rendimiento, y
- la disminución de la verdadera diferencia en el rendimiento entre los considerados modelos
(aunque se puede argumentar que este es un problema menor, como el error aquí es sólo para seleccionar un no totalmente perfecto modelo a partir de un número casi igual de buenos modelos)
pero no es para fuera-de-datos de la muestra?
Mientras la hacia fuera-de-la muestra de prueba se puede accidentalmente contienen más fácil de los casos de la población, es poco probable que somos (onu*)suerte aquí.
Nota: esto puede suceder, por supuesto. Pero se puede estimar la probabilidad/extensión de dicha al azar (mala) suerte con las herramientas usuales para estimar la incertidumbre sobre nuestra estimación de punto.
Mi impresión, sin embargo, es que en la práctica optimista evaluación de los modelos más frecuentemente ocurre debido a que el muestreo sesgado, como en los casos de ser excluidos para los que no las etiquetas pueden ser obtenidos (posiblemente debido a que son difíciles/en el límite de los casos).
* Considero que es mala suerte si aparece un modelo mejor de lo que realmente es, como he tenido que lidiar mucho con los datos de donde injustificado overoptimism puede conducir a un daño.