Kaggle competiciones de determinar la clasificación final basado en una salida de prueba.
Una salida de la prueba de conjunto es una muestra; puede no ser representativa de la población que se está modelando. Ya que cada presentación es como una hipótesis, el algoritmo que ganó el concurso, simplemente, por el total de la casualidad, han terminado la coincidencia de la prueba de conjunto mejor que los demás. En otras palabras, si un diferente conjunto de pruebas fueron seleccionados y de la competencia, repetido, sería la clasificación siendo el mismo?
Para el patrocinio de la corporación, que esto no importa (probablemente el top 20 de los envíos podrían mejorar su línea de base). Aunque, irónicamente, que podría terminar con un primer clasificado de modelo que es peor que la de los otros cinco mejores. Pero, para los participantes en el concurso, parece que Kaggle fin de cuentas es un juego de azar--suerte no es necesario tropezar en la solución correcta, es necesario tropezar en el que coincide con el conjunto de pruebas!
Es posible el cambio de la competencia con el fin de que todos los equipos de arriba que no pueden ser estadísticamente distinguido ganar? O, en este grupo el más parsimonioso o barato de cómputo modelo de ganar?