4 votos

Prueba de significación estadística en la precisión de un sistema de aprendizaje automático

Tengo lo que me imagino que es una elemental pregunta acerca de la evaluación de la significación estadística, pero al mismo tiempo sé mucho acerca de la probabilidad no puedo t-test mi manera de salir de una bolsa de papel. A partir de aquí yo estoy con la esperanza de obtener un puntero a donde debo buscar la respuesta.

Tengo un sistema de aprendizaje automático y un conjunto de pruebas de N preguntas. Yo ejecute la prueba y el sistema obtiene r preguntas a la derecha y w preguntas mal que r + w = N. Medir el rendimiento de mi sistema con su precisión, que yo defino a r/N.

De hacer un cambio en mi sistema de aprendizaje automático y volver a ejecutar la misma prueba. Ahora tengo un diferente precisión. Es posible preguntarse si es o no el cambio en la precisión es estadísticamente significativa?

Supongo que la hipótesis nula es que el cambio en la precisión es sólo debido a la oportunidad. El sistema es determinista, por lo que, en teoría, no hay ninguna oportunidad de participar. Sin embargo, algunas de las preguntas serán muy duros que se encuentran en su decisión de límite, haciéndolos tan sensible a la configuración del sistema a su corrección es esencialmente aleatoria. Es importante hablar acerca de la significación estadística en esta instancia? Si es así, ¿qué pruebas debo usar?


El seguimiento de la validación cruzada sugerencias en los comentarios de abajo, el siguiente trabajo?

Tengo un conjunto de datos de prueba de tamaño N. Se divide en M particiones disjuntas. Para probar mi sistema, tengo que calcular su exactitud en cada uno de los M particiones. Entonces puedo tomar la media y la desviación estándar de la precisión.

Para comparar el rendimiento de dos sistemas, corro tanto en el mismo conjunto de M particiones, y luego ver si la diferencia entre la media de la precisión es estadísticamente significativa. Puedo utilizar el Test de Welch para esto?

Aquí la "aleatoriedad" en el precisiones surge de sobreajuste.

-1voto

Jesse Schultz Puntos 1

Debería mirar el Área bajo la curva ROC como un método. Puede usar eso como una métrica para determinar qué tan bien cada método separa los conjuntos de datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X