Tengo lo que me imagino que es una elemental pregunta acerca de la evaluación de la significación estadística, pero al mismo tiempo sé mucho acerca de la probabilidad no puedo t-test mi manera de salir de una bolsa de papel. A partir de aquí yo estoy con la esperanza de obtener un puntero a donde debo buscar la respuesta.
Tengo un sistema de aprendizaje automático y un conjunto de pruebas de N preguntas. Yo ejecute la prueba y el sistema obtiene r preguntas a la derecha y w preguntas mal que r + w = N. Medir el rendimiento de mi sistema con su precisión, que yo defino a r/N.
De hacer un cambio en mi sistema de aprendizaje automático y volver a ejecutar la misma prueba. Ahora tengo un diferente precisión. Es posible preguntarse si es o no el cambio en la precisión es estadísticamente significativa?
Supongo que la hipótesis nula es que el cambio en la precisión es sólo debido a la oportunidad. El sistema es determinista, por lo que, en teoría, no hay ninguna oportunidad de participar. Sin embargo, algunas de las preguntas serán muy duros que se encuentran en su decisión de límite, haciéndolos tan sensible a la configuración del sistema a su corrección es esencialmente aleatoria. Es importante hablar acerca de la significación estadística en esta instancia? Si es así, ¿qué pruebas debo usar?
El seguimiento de la validación cruzada sugerencias en los comentarios de abajo, el siguiente trabajo?
Tengo un conjunto de datos de prueba de tamaño N. Se divide en M particiones disjuntas. Para probar mi sistema, tengo que calcular su exactitud en cada uno de los M particiones. Entonces puedo tomar la media y la desviación estándar de la precisión.
Para comparar el rendimiento de dos sistemas, corro tanto en el mismo conjunto de M particiones, y luego ver si la diferencia entre la media de la precisión es estadísticamente significativa. Puedo utilizar el Test de Welch para esto?
Aquí la "aleatoriedad" en el precisiones surge de sobreajuste.