Hay muchas situaciones en las que puedes entrenar varios clasificadores diferentes, o usar varios métodos de extracción de características. En la literatura, los autores suelen dar el error de clasificación promedio sobre un conjunto de divisiones aleatorias de los datos (es decir, después de una validación cruzada doblemente anidada), y a veces también dan las varianzas sobre el error en las divisiones. Sin embargo, esto por sí solo no es suficiente para decir que un clasificador es significativamente mejor que otro. He visto muchos enfoques diferentes para esto: usar pruebas de Chi-cuadrado, t-test, ANOVA con pruebas post-hoc, etc.
¿Qué método se debe utilizar para determinar la significancia estadística? Subyacente a esa pregunta está: ¿Qué suposiciones debemos hacer sobre la distribución de las puntuaciones de clasificación?
2 votos
¿Podrías publicar ejemplos con: "He visto muchos enfoques diferentes para esto, como pruebas de Chi-cuadrado, t-test, ANOVA con pruebas post hoc, etc."? Estoy muy interesado en eso.
1 votos
@jb echa un vistazo a este: cmpe.boun.edu.tr/~ethem/i2ml/slides/v1-1/i2ml-chap14-v1-1.pdf