Con la ayuda de las discusiones aquí, entrené con éxito varios modelos para la clasificación.
Como ejemplo, digamos que he entrenado un modelo reforzado por gradiente estocástico (gbm) y un árbol reforzado por gradiente extremo (xgboost). Se entrenan utilizando la validación cruzada en un conjunto de entrenamiento y luego se prueban en un conjunto de prueba midiendo el AUC (obtengo valores de alrededor de 0,87
Ahora me gustaría combinar esos modelos para conseguir uno aún mejor.
Intenté promediar las probabilidades predichas y sí, el AUC mejoró ligeramente en el conjunto de pruebas.
Pero si apilo los modelos en el siguiente sentido:
- calcular las probabilidades previstas pgbm y pxgb en el conjunto de entrenamiento y utilizarlos como predictores.
- entrenar algún modelo (lineal, de árbol) en el sentido class∼pgbm+pxgb
Los modelos de este tipo tienen un AUC de 0,9 en el conjunto de entrenamiento y de 0,8 en el conjunto de prueba (menos que los modelos individuales).
¿Utilizar algo más sofisticado que una ponderación media o lineal no es simplemente sobreajustar el conjunto de entrenamiento? La información sobre los datos no aumenta. Simplemente se oculta en las predicciones de la primera etapa.
Agradecería cualquier comentario.