5 votos

Tampoco se trata de un aspecto secundario.

Actualmente estoy asistiendo a la gran "Cómo Ganar una Ciencia de Datos de la Competencia" curso en Coursera. En un punto, los autores afirman que, dada su experiencia, la elección real de la máquina algoritmo de aprendizaje y los parámetros de sintonización es mucho menos importante que la característica de la ingeniería. Por un lado, esto parece intuitivamente tiene mucho sentido, en otro, parece contradecir el "no hay almuerzo gratis" teorema. ¿Conoces alguna de las referencias que más rigurosamente lidiar con este tema?

† Un aviso de que implícitamente parece considerar que aquí sólo el alto rendimiento de los algoritmos como XGBoost.

5voto

keldar Puntos 103

Desea citas para los reclamos, pero creo que este consejo, aunque útil, se deriva de este contexto en concreto.

El hecho de que estos métodos funcionan tan bien en Kaggle y otras competiciones tiene que ver con el tipo de conjuntos de datos en esas competiciones. A menudo, especialmente en la escuela primaria competiciones, los datos se compone de muchos ejemplos, con la heterogeneidad de tipos de datos (categórica, continua, falta de), que son ligeramente predictivo, y hay efectos de interacción a nivel de apalancamiento. Vivienda de precios de concursos son un ejemplo típico de esto. En tales casos árbol basado en conjuntos como XGBoost y Bosques Aleatorios son extremadamente eficaces y prácticas. Son lo suficientemente flexibles para aprender de las interacciones y de las no linealidades, no overfit demasiado si se hace correctamente, y puede tratar de forma natural con todo tipo de datos.

Tanto en la más avanzada de las competiciones y en la práctica, con otros tipos de datos (imágenes, texto, o simplemente no es una gran cantidad de datos), y otro problema de configuración (previsión, los sistemas de recomendación), XGBoost no se suele ser la mejor solución, o en más de una parte de la aproximación. Por no decir que también hay muchos problemas en la práctica donde XGBoost es simplemente el mejor enfoque en términos de clasificación o regresión de rendimiento.

En datos de texto o en las imágenes, basada en el árbol métodos se sabe que no funciona tan bien. Unicc de datos es también muy distinto a lo bestia. Un ejemplo interesante en Kaggle creo que es por ejemplo el ajedrez de calificación de la competencia, usted puede encontrar el ganador de los métodos aquí: https://www.kaggle.com/c/ChessRatings2/discussion/568.

1voto

OmaL Puntos 106

No es la NFL de que se trate con algoritmos que son datos independientes? Característica de la ingeniería es completamente dependiente de los datos, porque no es una rigurosos, bien definidos algoritmo, especialmente en el sentido de que significa Kagglers. Para los diferentes conjuntos de datos que elegir diferentes características basado en la experiencia, la Intuición y una gran cantidad de mano saludando. No es como que lo utilice una persona de principios bien definidos a priori enfoque. En otras palabras, no siempre se utiliza la misma función de la ingeniería del algoritmo para las diferentes competiciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X