¿Tengo una situación de sobreajuste en xgboost en estos datos? ¿Cómo puedo reducirlo?

Question

¿Tengo una situación de sobreajuste en xgboost en estos datos? ¿Cómo puedo reducirlo?

Preguntado el 11 de Diciembre, 2015: Cuando se hizo la pregunta
4274 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Aplico el algoritmo xgboost para la clasificación. Realizo una validación cruzada en el conjunto de datos de entrenamiento para encontrar los parámetros (eta, reducción del tamaño del paso, = 0,01, profundidad máxima de un árbol: 14, 1400 rondas) para obtener la mejor precisión y obtengo algo así como 0,9. Sin embargo, en el conjunto de datos de prueba obtengo 0,5. Sin embargo, en el conjunto de datos de prueba obtengo 0,5.

Además, mi predicción en la muestra se parece a esto:

Con los métodos clásicos (glm, por ejemplo) las probabilidades son mucho más "confusas", es decir, se agrupan en torno a 0,5. En el caso de xgboost obtengo una imagen mucho más dispersa. ¿Es esto un signo de sobreajuste? ¿Qué parámetros puedo calibrar para evitarlo? Supongo que es gamma, yo uso el 0 por defecto. ¿Cuáles son los valores típicos de gamma?

Preguntado el 11 de Diciembre, 2015 por Dan Midwood

Answer 1

2 Respuestas

Answer 2

2voto

KhaaL Puntos 66

Los GBT y los RF no suelen necesitar tanto ajuste de parámetros. Para ver tanta diferencia de rendimiento sospecharía algo más.

Yo preguntaría:

¿Ha realizado alguna selección de características o ingeniería en los datos de entrenamiento pero fuera del bucle CV? ¿Ese es el mayor culpable de que los modelos no generalicen?
¿Son los datos lo suficientemente dimensionales y ruidosos como para que haya características que legítimamente puedan funcionar bien en los datos de entrenamiento pero no en los de prueba? Esto es muy común en datos genéticos con decenas de miles de características y sólo cientos de casos.
¿Existe algún tipo de identificador único o dato filtrado en el conjunto de entrenamiento que permita un buen ajuste?
¿Hay algún tipo de efecto de lote o covariables cambiantes? Es decir, esto es muy común si el conjunto de datos retenidos es más reciente que el de entrenamiento, como suele ocurrir en los estudios en curso.

Respondido el 12 de Diciembre, 2015 por KhaaL (66 Puntos )

Answer 3

1voto

Zoran Simic Puntos 5694

En efecto, puede tratarse de una situación de sobreajuste, lo que significa que el rendimiento en el conjunto de entrenamiento es superior al del conjunto de pruebas; el modelo no se generaliza a nuevas situaciones. Mi primera suposición es que el parámetro max.depth es demasiado alto (su valor por defecto es 6) y puede intentar reducirlo. Hay algunos otros parámetros que puede cambiar, como min.child.weight, gamma, para evitar el sobreajuste. Ver una presentación de diapositivas perspicaz aquí: http://www.slideshare.net/ShangxuanZhang/kaggle-winning-solution-xgboost-algorithm-let-us-learn-from-its-author

Respondido el 11 de Diciembre, 2015 por Zoran Simic (5694 Puntos )

¿Tengo una situación de sobreajuste en xgboost en estos datos? ¿Cómo puedo reducirlo?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Tengo una situación de sobreajuste en xgboost en estos datos? ¿Cómo puedo reducirlo?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: