19 votos

Por qué no basta con dividir los datos en el conjunto de entrenamiento y de prueba

Sé que para acceder al rendimiento del clasificador tengo que dividir los datos en conjunto de entrenamiento/prueba. Pero leyendo esto :

Cuando se evalúan diferentes ajustes ("hiperparámetros") para los estimadores como el ajuste C que debe establecerse manualmente para una SVM, sigue existiendo de sobreajuste en el conjunto de pruebas, ya que los parámetros pueden de prueba, ya que los parámetros pueden ajustarse hasta que el estimador funcione de forma óptima. De este modo, el conocimiento de prueba puede "filtrarse" en el modelo y las métricas de evaluación ya no de evaluación ya no informan sobre el rendimiento de la generalización. Para resolver este problema otra parte del conjunto de datos se puede mantener como un "de validación": el entrenamiento se lleva a cabo en el conjunto de entrenamiento, tras lo cual la evaluación se realiza en el conjunto de validación. Después, la evaluación se realiza en el conjunto de validación, y cuando el experimento Cuando el experimento parece tener éxito, la evaluación final puede realizarse en el conjunto de pruebas.

Veo que se introduce otro (tercer) conjunto de validación que se justifica por el sobreajuste del conjunto de prueba durante el ajuste de los hiperparámetros.

El problema es que no puedo entender cómo puede aparecer este sobreajuste y, por tanto, no puedo entender la justificación del tercer conjunto.

18voto

Marc Claesen Puntos 9818

Aunque esté entrenando modelos exclusivamente con los datos de entrenamiento, está optimizando los hiperparámetros (por ejemplo $C$ para una SVM) basado en el conjunto de pruebas. Por lo tanto, su estimación del rendimiento puede ser optimista, ya que básicamente está informando de los resultados del mejor caso. Como algunos en este sitio ya han mencionado, la optimización es la raíz de todos los males en la estadística .

Las estimaciones de rendimiento deben hacerse siempre con datos completamente independientes. Si está optimizando algún aspecto basado en datos de prueba, entonces sus datos de prueba ya no son independientes y necesitaría un conjunto de validación.

Otra forma de hacerlo es a través de validación cruzada anidada que consiste en dos procedimientos de validación cruzada envueltos entre sí. La validación cruzada interna se utiliza en la puesta a punto (para estimar el rendimiento de un conjunto determinado de hiperparámetros, que se optimiza) y la validación cruzada externa estima el rendimiento de generalización de todo el proceso de aprendizaje automático (es decir, la optimización de los hiperparámetros + el entrenamiento del modelo final).

11voto

Kage Puntos 21

Creo que es más fácil pensar en las cosas de esta manera. Hay dos cosas para las que se utiliza la validación cruzada, ajuste de los hiperparámetros de un modelo/algoritmo, y evaluación del rendimiento de un modelo/algoritmo.

Considere el primer uso como parte del entrenamiento real del algoritmo. Por ejemplo, la validación cruzada para determinar la fuerza de regularización de un MLG forma parte del establecimiento del resultado final del MLG. Este uso se suele denominar validación cruzada interna . Dado que los (hiper)parámetros se siguen fijando, el pérdida de set de sintonía no es una gran medida del rendimiento real de los algoritmos.

El segundo uso de la validación cruzada es el uso de datos que se mantuvieron fuera de todo el proceso que produjo el modelo, para probar su poder de predicción. Este proceso se denomina validación cruzada externa .

Tenga en cuenta que la validación interna puede haber formado parte del proceso que produjo el modelo, por lo que en muchos casos es necesaria la validación cruzada tanto interna como externa.

3voto

fcop Puntos 2891

Durante la construcción del modelo se entrenan los modelos en un muestra de formación . Tenga en cuenta que puede entrenar diferentes modelos (es decir, diferentes técnicas como SVM, LDA, Random Forest, ... o la misma técnica con diferentes valores de los parámetros de ajuste, o una mezcla).

Entre todos los diferentes modelos que entrenaste, tienes que elija uno y por lo tanto se utiliza el muestra de validación para encontrar el que tenga el menor error en la muestra de prueba.

Para este modelo "final" todavía tenemos que estimar el error y por lo tanto utilizamos el muestra de prueba .

1voto

Dawny33 Puntos 1811

La validación cruzada no supera por completo el problema del sobreajuste en la selección de modelos, sólo lo reduce. El error de validación cruzada depende del conjunto de datos que se utilice. Cuanto más pequeño sea el conjunto de datos, mayor será el error de validación cruzada.

Además, si se tienen muchos grados de libertad en la selección del modelo, se corre el riesgo de que el modelo no funcione bien, ya que el criterio de validación cruzada se sobreajusta.

Por lo tanto, cuando los datos se dividen en dos conjuntos, es decir, el conjunto de entrenamiento y el conjunto de prueba, la división se realiza de forma estática. Por tanto, existe la posibilidad de sobreajustar el conjunto de entrenamiento. Sin embargo, los conjuntos de validación cruzada se crean mediante diferentes métodos Como la validación cruzada k-fold, Leave-out-one-cross-validation (LOOCV), etc. que ayuda a asegurar que la recompensa de ajuste exacto de la división de 2 conjuntos se elimina y por lo tanto la posibilidad de sobre ajuste se reduce.

Estos son algunos recursos lo que le ayudará a entender mejor.

Por lo tanto, la validación cruzada le ayudará cuando tenga un conjunto de datos más grande, en lugar de uno más pequeño.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X