¿Por qué adaptar el nuevo TargetEncoder a los datos de prueba?

Question

¿Por qué adaptar el nuevo TargetEncoder a los datos de prueba?

Preguntado el 30 de Marzo, 2020: Cuando se hizo la pregunta
174 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

En el Tutorial de H2O sobre codificación de objetivos recomiendan ajustar un nuevo TargetEncoder a todo el conjunto de entrenamiento para codificar los datos de prueba. ¿Por qué no utilizar simplemente el TargetEncoder promediado ajustado a los datos de entrenamiento en la validación cruzada k-fold?

Entiendo su punto de vista de que el sobreajuste no es un riesgo, pero me parece que están introduciendo un cambio en la distribución de la variable codificada entre los conjuntos de entrenamiento y prueba.

http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-munging/target-encoding.html#transform-target-encoding

Preguntado el 30 de Marzo, 2020 por Teacher

Answer 1

1 Respuestas

Answer 2

1voto

Kenston Choi Puntos 1138

El punto que la documentación está tratando de hacer (tal vez no claramente) es que la validación cruzada puede/debe ser utilizada para evaluar la codificación de una variable de alto cardinal. Si el modelo de la variable codificada como objetivo muestra un pequeño error de CV, entonces debería utilizar la codificación como objetivo. A continuación, podemos utilizar todos los datos al codificar por objetivos una variable de alto cardinal. El punto principal: ** Los modelos creados durante la validación cruzada se utilizan para evaluar sus decisiones de construcción de modelos, por ejemplo, la codificación de objetivos; NO son los modelos finales que se utilizan en la práctica.

No podemos evaluar la variable final de codificación del objetivo con el error de entrenamiento. Necesitaremos otro conjunto de pruebas para tener una mejor idea del error de generalización.

Respondido el 12 de Abril, 2020 por Kenston Choi (1138 Puntos )

¿Por qué adaptar el nuevo TargetEncoder a los datos de prueba?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Por qué adaptar el nuevo TargetEncoder a los datos de prueba?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: