8 votos

¿Cuál es el nivel de precisión del azar en los problemas de clasificación no equilibrada?

Supongamos que tenemos un problema de clasificación equilibrado (50% de 0 y 50% de 1). En este caso, la llamada precisión de nivel de azar del clasificador sería del 50%.

¿Cuál es la precisión del nivel de azar si el problema está desequilibrado (por ejemplo, un 25% de 0 y un 75% de 1)? ¿Sigue siendo el 50%? Si se adivinara que cada grupo es 1, se lograría una precisión del 75%. Sin embargo, si se asignan los grupos de forma aleatoria, la media de aciertos seguiría siendo del 50%.

Estoy utilizando SVMs para la clasificación y la validación cruzada de 10 veces para la estimación del rendimiento si importa.

7voto

Marc Claesen Puntos 9818

El rendimiento de un clasificador aleatorio depende de la fracción de veces que predice positivo, por ejemplo $P(\hat{y} = 1)$ . Un modelo aleatorio significa esencialmente un modelo cuyas predicciones $\hat{y}$ son independientes de la verdadera etiqueta $y$ lo que significa: $$ P(\hat{y} = 1\ |\ y = 1) = P(\hat{y} = 1), $$ y $$ P(y = 1\ |\ \hat{y} = 1) = P(y = 1). $$ La probabilidad de acertar, es decir, la precisión esperada es entonces: $$ P(\hat{y} = y) = P(\hat{y} = 1) P(y = 1) + P(\hat{y} = 0) P(y = 0). $$ Si el conjunto de datos está desequilibrado, el modelo "aleatorio" con la mejor precisión esperada es el que siempre predice la clase mayoritaria, con una precisión esperada igual a la fracción de datos de la clase mayoritaria.

El principal problema con los conjuntos de datos muy desequilibrados (digamos un 99% de negativos) es que es probable que acabe con modelos triviales como los descritos anteriormente, es decir, un modelo que siempre predice la clase mayoritaria (negativa) y consigue una alta precisión (99%), por lo que este modelo inútil parece realmente bueno. Si utiliza una función de puntuación pobre (como la precisión) al optimizar los hiperparámetros, es muy probable que obtenga un modelo muy malo en entornos desequilibrados.

Esta es una de las muchas razones por las que deben evitarse las medidas discretas como la precisión. No tendrás esos problemas con medidas como el área bajo la curva ROC o PR.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X