Desea citas para los reclamos, pero creo que este consejo, aunque útil, se deriva de este contexto en concreto.
El hecho de que estos métodos funcionan tan bien en Kaggle y otras competiciones tiene que ver con el tipo de conjuntos de datos en esas competiciones. A menudo, especialmente en la escuela primaria competiciones, los datos se compone de muchos ejemplos, con la heterogeneidad de tipos de datos (categórica, continua, falta de), que son ligeramente predictivo, y hay efectos de interacción a nivel de apalancamiento. Vivienda de precios de concursos son un ejemplo típico de esto. En tales casos árbol basado en conjuntos como XGBoost y Bosques Aleatorios son extremadamente eficaces y prácticas. Son lo suficientemente flexibles para aprender de las interacciones y de las no linealidades, no overfit demasiado si se hace correctamente, y puede tratar de forma natural con todo tipo de datos.
Tanto en la más avanzada de las competiciones y en la práctica, con otros tipos de datos (imágenes, texto, o simplemente no es una gran cantidad de datos), y otro problema de configuración (previsión, los sistemas de recomendación), XGBoost no se suele ser la mejor solución, o en más de una parte de la aproximación. Por no decir que también hay muchos problemas en la práctica donde XGBoost es simplemente el mejor enfoque en términos de clasificación o regresión de rendimiento.
En datos de texto o en las imágenes, basada en el árbol métodos se sabe que no funciona tan bien. Unicc de datos es también muy distinto a lo bestia. Un ejemplo interesante en Kaggle creo que es por ejemplo el ajedrez de calificación de la competencia, usted puede encontrar el ganador de los métodos aquí: https://www.kaggle.com/c/ChessRatings2/discussion/568.