36 votos

¿Cómo comparar estadísticamente el rendimiento de los clasificadores de aprendizaje automático?

Basándome en la precisión de clasificación estimada, quiero probar si un clasificador es estadísticamente mejor en un conjunto base que otro clasificador . Para cada clasificador, selecciono una muestra de entrenamiento y otra de prueba aleatoriamente del conjunto base, entreno el modelo y pruebo el modelo. Hago esto diez veces para cada clasificador. Por lo tanto, dispongo de diez mediciones estimadas de la precisión de la clasificación para cada clasificador. ¿Cómo compruebo estadísticamente si el $classifier 1$ es un clasificador mejor que el $classifier 2$ en el conjunto de datos de base. ¿Qué prueba t conviene utilizar?

0 votos

¿Probó los clasificadores con las mismas muestras, es decir, muestra1, c1(muestra1), c2(muestra1)? ¿O utilizó muestras diferentes para cada clasificador?

0 votos

La prueba t pareada sería adecuada en este caso.

1 votos

@lewellen: la precisión es una proporción: las pruebas t suelen ser no apropiado.

16voto

0 votos

Dietterich afirma: "La distribución binomial puede aproximarse bien mediante una distribución normal para valores razonables de $n$ ." Hasta ahora, usted no nos ha dicho que tiene razonable $n$ . Los 30 casos de @JohnMoeller son IMHO más bien pocos para la aproximación normal (al menos sin ningún conocimiento sobre $p_1$ y $p_2$ ).

0 votos

Dispongo de al menos 4000 registros por clase en el conjunto de datos base, por lo que la muestra que selecciono puede ser inferior a esta cifra. El mayor inconveniente de las pruebas de diferencia de proporciones es que ignoran la "variación interna del algoritmo de aprendizaje". Creo que esto es importante para un clasificador como una red neuronal, que es lo que estoy utilizando.

0 votos

Bueno, esa es una situación completamente diferente a la que ha planteado JohnMoeller. Si te refieres a la inestabilidad del modelo por "variación interna": puedes medirla. Actualizaré mi respuesta.

12voto

cbeleites Puntos 12461

No tengo el libro de Fleiss a mano, así que todo esto es IIRC.

Respondiendo de momento a la pregunta de @JohnMoeller en los comentarios: la pregunta original es IMHO incontestable tal y como está.

Así que supongamos que tengo 30 muestras, y pruebo c1 y c2 en cada muestra, y registro la precisión de cada uno en cada muestra.

Haciendo esto, se obtiene una tabla de contingencia 2 x 2 que da el clasificador 1 correcto/incorrecto contra el clasificador 2 correcto/incorrecto. Que es el punto de partida para Prueba de McNemar . Así pues, se trata de una comparación por pares, que es más potente que comparar proporciones "independientes" (que no son completamente independientes si proceden de extracciones aleatorias de la misma muestra finita).

Ahora mismo no puedo buscar la "letra pequeña" de McNemar, pero 30 muestras no es mucho. Así que puede que incluso tenga que cambiar de McNemar's a Prueba exacta de Fisher [u otra cosa] que calcula las probabilidades binomiales.


Medios de proporciones:
No importa si se prueba un mismo clasificador 10 veces con 10 casos de prueba o una vez con todos esos 100 casos (la tabla 2 x 2 sólo cuenta todos los casos de prueba).

Si las 10 estimaciones de precisión para cada clasificador en la pregunta original se obtienen mediante una validación aleatoria o una validación cruzada 10 veces o una validación cruzada 10 veces, normalmente se asume que los 10 modelos alternativos calculados para cada clasificador son equivalentes (= tienen la misma precisión), por lo que los resultados de las pruebas se pueden agrupar*. Para la validación cruzada de 10 veces, se supone que el tamaño de la muestra de prueba es igual al número total de muestras de prueba. Para los demás métodos no estoy tan seguro: puede que se pruebe el mismo caso más de una vez. Dependiendo de los datos, el problema o la aplicación, esto no aporta tanta información como probar un caso nuevo.

*Si los modelos sustitutos son inestables, esta suposición se rompe. Pero esto se puede medir: Hacer iteraciones $k$ -validación cruzada doble. Cada ejecución completa proporciona una predicción para cada caso. Por lo tanto, si se comparan las predicciones para el mismo caso de prueba con varios modelos sustitutos diferentes, se puede medir la varianza causada por el intercambio de algunos de los datos de entrenamiento. Esta varianza se añade a la varianza debida al tamaño total finito de la muestra.

Coloque los resultados del CV iterado en una "matriz de clasificación correcta" en la que cada fila corresponda a un caso y cada columna a uno de los modelos alternativos. Ahora, la varianza a lo largo de las filas (eliminando todos los elementos vacíos) se debe únicamente a la inestabilidad de los modelos sustitutos. La varianza en las columnas se debe al número finito de casos que ha utilizado para probar este modelo sustitutivo. Digamos que tiene $k$ predicciones correctas de $n$ casos probados en una columna. La estimación puntual de la precisión es $\hat p = \frac{k}{n}$ está sujeta a variaciones $\sigma^2 (\hat p) = \sigma^2 (\frac{k}{n}) = \frac{p (1 - p)}{n}$ .
Compruebe si la varianza debida a la inestabilidad es grande o pequeña en comparación con la varianza debida al tamaño finito de la muestra de prueba.

0 votos

Ah, vale. Es la última parte la que aclara las cosas, al menos para mí. Gracias.

0 votos

Gracias por la respuesta. No tengo claro el procedimiento a seguir. Usted dice que hay que realizar una validación cruzada de 10 veces en un único conjunto de datos. Medir la precisión en la muestra retenida, es decir, calcular una matriz de confusión 2x2. Sume las diez matrices de confusión 2x2. Realice el test de McNemar sobre la matriz de confusión 2x2 agregada.

0 votos

@entropía: 1. La tabla de contingencia 2x2 no es la matriz de confusión. 2. nueva muestra cada vez frente a probar ambos clasificadores en los mismos datos de prueba: las pruebas pareadas son más potentes (y posibles aquí). Véase la respuesta actualizada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X