2 votos

Dudas sobre k-Fold CrossValidation

En la validación cruzada de k pliegues, los datos se dividen en k pliegues, luego se toman k-1 pliegues para el entrenamiento y 1 pliegue para la validación.

Este proceso se repite k veces, tomando cada vez un pliegue diferente para la validación, por lo que terminamos con k modelos diferentes y k resultados diferentes (aunque los resultados deberían ser muy similares si todo va bien)

Esto es muy útil para hacerse una idea del rendimiento medio de un clasificador. Algunos pliegues de validación pueden contener valores atípicos que darán resultados extremos, pero la repetición para diferentes conjuntos de validación resuelve este problema.

Ahora mi pregunta:

Al final quiero un modelo final que es el que utilizaré para obtener los resultados finales en el conjunto de pruebas, y el que acabaré utilizando en producción. Dado que en k-fold crossval he entrenado k modelos diferentes, ¿cuál debo utilizar como modelo "final"?

  • ¿El que obtiene mejores resultados?
  • ¿Debo volver a entrenar un modelo, esta vez utilizando como entrenamiento tanto el conjunto de entrenamiento como el de validación?

¿Cómo puedo pasar de una validación cruzada a un modelo final?

5voto

user44816 Puntos 8

La validación cruzada se realiza para comparar el rendimiento de varios algoritmos en los mismos pliegues del mismo conjunto de datos. A continuación, se toma el mejor* y se vuelve a entrenar en todo el conjunto de datos. Así que su segunda opción.

*El mejor suele ser el de mayor rendimiento medio, pero a menudo se tiene cierta discrecionalidad a la hora de elegir. Si no hay diferencias estadísticamente significativas entre algunos de los algoritmos, también puedes elegir el menos complejo desde el punto de vista computacional, el más intuitivo o el que tenga menos parámetros que ajustar.

Tenga en cuenta también que este procedimiento sólo funciona si todos los algoritmos que compara tienen pocos o ningún parámetro que ajustar o, si tienen parámetros, proporcionan buenos valores por defecto de la literatura.

Si tiene que ajustar los parámetros del modelo, tendrá que realizar una validación cruzada anidada, lo que hace menos sencillo disponer de un modelo final para aplicarlo a datos no vistos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X