2 votos

¿Por qué adaptar el nuevo TargetEncoder a los datos de prueba?

En el Tutorial de H2O sobre codificación de objetivos recomiendan ajustar un nuevo TargetEncoder a todo el conjunto de entrenamiento para codificar los datos de prueba. ¿Por qué no utilizar simplemente el TargetEncoder promediado ajustado a los datos de entrenamiento en la validación cruzada k-fold?

Entiendo su punto de vista de que el sobreajuste no es un riesgo, pero me parece que están introduciendo un cambio en la distribución de la variable codificada entre los conjuntos de entrenamiento y prueba.

http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-munging/target-encoding.html#transform-target-encoding

1voto

Kenston Choi Puntos 1138

El punto que la documentación está tratando de hacer (tal vez no claramente) es que la validación cruzada puede/debe ser utilizada para evaluar la codificación de una variable de alto cardinal. Si el modelo de la variable codificada como objetivo muestra un pequeño error de CV, entonces debería utilizar la codificación como objetivo. A continuación, podemos utilizar todos los datos al codificar por objetivos una variable de alto cardinal. El punto principal: ** Los modelos creados durante la validación cruzada se utilizan para evaluar sus decisiones de construcción de modelos, por ejemplo, la codificación de objetivos; NO son los modelos finales que se utilizan en la práctica.

No podemos evaluar la variable final de codificación del objetivo con el error de entrenamiento. Necesitaremos otro conjunto de pruebas para tener una mejor idea del error de generalización.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X