14 votos

¿Son competiciones de Kaggle ganó por casualidad?

Kaggle competiciones de determinar la clasificación final basado en una salida de prueba.

Una salida de la prueba de conjunto es una muestra; puede no ser representativa de la población que se está modelando. Ya que cada presentación es como una hipótesis, el algoritmo que ganó el concurso, simplemente, por el total de la casualidad, han terminado la coincidencia de la prueba de conjunto mejor que los demás. En otras palabras, si un diferente conjunto de pruebas fueron seleccionados y de la competencia, repetido, sería la clasificación siendo el mismo?

Para el patrocinio de la corporación, que esto no importa (probablemente el top 20 de los envíos podrían mejorar su línea de base). Aunque, irónicamente, que podría terminar con un primer clasificado de modelo que es peor que la de los otros cinco mejores. Pero, para los participantes en el concurso, parece que Kaggle fin de cuentas es un juego de azar--suerte no es necesario tropezar en la solución correcta, es necesario tropezar en el que coincide con el conjunto de pruebas!

Es posible el cambio de la competencia con el fin de que todos los equipos de arriba que no pueden ser estadísticamente distinguido ganar? O, en este grupo el más parsimonioso o barato de cómputo modelo de ganar?

15voto

VF1 Puntos 118

Sí, tu razonamiento es correcto. Si una prueba diferente del set, fue seleccionado y la competencia repetido, clasificaciones cambiarían. Considere el siguiente ejemplo. Todas las entradas para un Kaggle la competencia con el binario etiquetas de adivinar al azar (y, a decir, de forma independiente) para predecir su salida. Por casualidad, uno de ellos de acuerdo con la exclusión más que otros, aunque no hay una predicción que está pasando.

Mientras que esto es un poco artificial, podemos ver que la varianza en cada uno de la presentación de los modelos significaría que la aplicación de muchas de esas entradas sería, de hecho, acaba de ser apropiado para el ruido del conjunto de exclusión. Esto nos dice que (dependiendo de cada modelo de varianzas), la parte superior-N de los modelos probablemente generalizar la misma. Este es el jardín de senderos que se bifurcan, a excepción de los "investigadores" no son lo mismo (pero eso no importa).

Es posible el cambio de la competencia con el fin de que todos los equipos que no pueden ser estadísticamente distingue de la parte superior de rendimiento en la prueba de conjunto de ganar?

De hecho.

  • Un enfoque práctico como es), sería explícitamente el trabajo de la varianza de un modelo dado en cada entrada, lo que nos daría un CI en su exclusión de rendimiento.
  • Otro enfoque, que puede tomar un montón de cálculo, es para arrancar un CI en la exclusión de rendimiento, mediante la exposición de un entrenamiento y de prueba de la API para todos los modelos.

3voto

David Puntos 41

Hay otros tipos de competiciones en Kaggle no tienen la oportunidad de elementos. Por ejemplo, este Stanta Robadas del Trineo.

Se trata de un problema de optimización discreta y aún no se han privado de la tabla de líderes. Lo que se ve en el líder público de la junta es el resultado final.

Comparación de aprendizaje supervisado, que tiene un inicio fácil para muchas personas, este tipo de competencia es más "duro" en la naturaleza.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X