En el Tutorial de H2O sobre codificación de objetivos recomiendan ajustar un nuevo TargetEncoder a todo el conjunto de entrenamiento para codificar los datos de prueba. ¿Por qué no utilizar simplemente el TargetEncoder promediado ajustado a los datos de entrenamiento en la validación cruzada k-fold?
Entiendo su punto de vista de que el sobreajuste no es un riesgo, pero me parece que están introduciendo un cambio en la distribución de la variable codificada entre los conjuntos de entrenamiento y prueba.