¿No es el apilamiento de modelos una forma directa de sobreajuste?

Question

¿No es el apilamiento de modelos una forma directa de sobreajuste?

Preguntado el 7 de Junio, 2016: Cuando se hizo la pregunta
1877 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Con la ayuda de las discusiones aquí, entrené con éxito varios modelos para la clasificación.

Como ejemplo, digamos que he entrenado un modelo reforzado por gradiente estocástico (gbm) y un árbol reforzado por gradiente extremo (xgboost). Se entrenan utilizando la validación cruzada en un conjunto de entrenamiento y luego se prueban en un conjunto de prueba midiendo el AUC (obtengo valores de alrededor de 0,87

Ahora me gustaría combinar esos modelos para conseguir uno aún mejor.

Intenté promediar las probabilidades predichas y sí, el AUC mejoró ligeramente en el conjunto de pruebas.

Pero si apilo los modelos en el siguiente sentido:

calcular las probabilidades previstas $p_{\text{gbm}}$ y $p_{\text{xgb}}$ en el conjunto de entrenamiento y utilizarlos como predictores.
entrenar algún modelo (lineal, de árbol) en el sentido $\text{class} \sim p_{\text{gbm}}+p_{\text{xgb}}$

Los modelos de este tipo tienen un AUC de 0,9 en el conjunto de entrenamiento y de 0,8 en el conjunto de prueba (menos que los modelos individuales).

¿Utilizar algo más sofisticado que una ponderación media o lineal no es simplemente sobreajustar el conjunto de entrenamiento? La información sobre los datos no aumenta. Simplemente se oculta en las predicciones de la primera etapa.

Agradecería cualquier comentario.

Preguntado el 7 de Junio, 2016 por Dan Midwood

Answer 1

1 Respuestas

Answer 2

3voto

Andrew Bestic Puntos 121

El problema es simple: sus clasificadores base (gbm y xgb) están sesgados con las predicciones. Si se entrenan y se prueban con los mismos datos, suelen tener un mejor rendimiento que con los datos de prueba (aunque depende del tamaño de la muestra y más...). ¿Qué le queda por aprender al apilador? Predicciones sesgadas.

Así que puede utilizar la validación cruzada para los clasificadores de base, entrenarlos y probarlos en datos no vistos (del conjunto de entrenamiento) y utilizar esas predicciones insesgadas para entrenar al apilador. De esta forma no se sobreajusta.

Dos detalles: Si quieres tener una implementación genial de k-folding, puedes considerar usar el REP (si utiliza python).

Apilar dos árboles de decisión potenciados no te dará una mejora real. Es mejor usar XGBoost solo, es un clasificador muy superior. O apilarlo con SVM, NN o similares.

Respondido el 16 de Mayo, 2017 por Andrew Bestic (121 Puntos )

¿No es el apilamiento de modelos una forma directa de sobreajuste?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿No es el apilamiento de modelos una forma directa de sobreajuste?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: