27 votos

Comparación de los resultados de precisión de dos clasificadores para la significación estadística con la prueba t

Quiero comparar la precisión de dos clasificadores para la significación estadística. Ambos clasificadores se ejecutan en el mismo conjunto de datos. Esto me lleva a creer que debería utilizar una prueba t de una muestra de lo que he sido lectura .

Por ejemplo:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

¿Es ésta la prueba correcta? En caso afirmativo, ¿cómo puedo calcular si la diferencia de precisión entre los clasificadores es significativa?

¿O debería utilizar otra prueba?

21voto

John Richardson Puntos 1197

Probablemente optaría por Prueba de McNemar si sólo se entrenan los clasificadores una vez. David Barber también sugiere una Prueba bayesiana que me parece bastante elegante, pero que no se utiliza mucho (también se menciona en su Libro ).

Sólo añadir que, como dice Peter Flom, la respuesta es casi con toda seguridad "sí", simplemente observando la diferencia de rendimiento y el tamaño de la muestra (entiendo que las cifras citadas se refieren al rendimiento del conjunto de pruebas y no al del conjunto de entrenamiento).

Por cierto, Japkowicz y Shah han publicado recientemente un libro sobre "Evaluación de algoritmos de aprendizaje: Una perspectiva de clasificación" No lo he leído, pero parece una referencia útil para este tipo de cuestiones.

7voto

Tim Lin Puntos 121

Dado que la precisión, en este caso, es la proporción de muestras correctamente clasificadas, podemos aplicar la prueba de hipótesis relativa a un sistema de dos proporciones.

Sea $\hat p_1$ y $\hat p_2$ son las precisiones obtenidas de los clasificadores 1 y 2 respectivamente, y $n$ el número de muestras. El número de muestras clasificadas correctamente en los clasificadores 1 y 2 son $x_1$ y $x_2$ respectivamente.

$ \hat p_1 = x_1/n,\quad \hat p_2 = x_2/n$

La estadística de la prueba viene dada por

$\displaystyle Z = \frac{\hat p_1 - \hat p_2}{\sqrt{2\hat p(1 -\hat p)/n}}\qquad$ donde $\quad\hat p= (x_1+x_2)/2n$

Nuestra intención es demostrar que la precisión global del clasificador 2, es decir, $p_2$ es mejor que la del clasificador 1, que es $p_1$ . Esto enmarca nuestra hipótesis como

  • $H_0: p_1 = p_2\quad$ (hipótesis nula según la cual ambos son iguales)
  • $H_a: p_1 < p_2\quad$ (hipótesis alternativa que afirma que la nueva es mejor que la existente)

La región de rechazo viene dada por

$Z < -z_\alpha \quad$ (si se rechaza $H_0$ y aceptar $H_a$ )

donde $z_\alpha$ se obtiene a partir de una distribución normal estándar que corresponde a un nivel de significación, $\alpha$ . Por ejemplo $z_{0.5} = 1.645$ para un nivel de significación del 5%. Esto significa que si la relación $Z < -1.645$ es cierta, entonces podríamos decir con un nivel de confianza del 95% ( $1-\alpha$ ) que el clasificador 2 es más preciso que el clasificador 1.

Referencias:

  1. R. Johnson y J. Freund, Miller and Freund's Probability and Statistics for Engineers, 8th Ed. Prentice Hall International, 2011. (Fuente primaria)
  2. Prueba de hipótesis-Resumen de la fórmula concisa . (Tomado de [1])

6voto

Zizzencs Puntos 1358

Puedo decirte, sin ni siquiera correr nada, que la diferencia será altamente significativa desde el punto de vista estadístico. Pasa la prueba IOTT (prueba de traumatismo interocular: te golpea entre los ojos).

Sin embargo, si desea realizar una prueba, podría hacerlo como una prueba de dos proporciones, lo que puede hacerse con una prueba t de dos muestras.

Sin embargo, es posible que desee desglosar la "precisión" en sus componentes: sensibilidad y especificidad, o falsos positivos y falsos negativos. En muchas aplicaciones, el coste de los distintos errores es muy diferente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X