¿Cuál es el nivel de precisión del azar en los problemas de clasificación no equilibrada?

Question

¿Cuál es el nivel de precisión del azar en los problemas de clasificación no equilibrada?

Preguntado el 24 de Abril, 2015: Cuando se hizo la pregunta
5957 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Supongamos que tenemos un problema de clasificación equilibrado (50% de 0 y 50% de 1). En este caso, la llamada precisión de nivel de azar del clasificador sería del 50%.

¿Cuál es la precisión del nivel de azar si el problema está desequilibrado (por ejemplo, un 25% de 0 y un 75% de 1)? ¿Sigue siendo el 50%? Si se adivinara que cada grupo es 1, se lograría una precisión del 75%. Sin embargo, si se asignan los grupos de forma aleatoria, la media de aciertos seguiría siendo del 50%.

Estoy utilizando SVMs para la clasificación y la validación cruzada de 10 veces para la estimación del rendimiento si importa.

Preguntado el 24 de Abril, 2015 por Nicolas Guillaumin

Answer 1

1 Respuestas

Answer 2

7voto

Marc Claesen Puntos 9818

El rendimiento de un clasificador aleatorio depende de la fracción de veces que predice positivo, por ejemplo $P(\hat{y} = 1)$ . Un modelo aleatorio significa esencialmente un modelo cuyas predicciones $\hat{y}$ son independientes de la verdadera etiqueta $y$ lo que significa: $$ P(\hat{y} = 1\ |\ y = 1) = P(\hat{y} = 1), $$ y $$ P(y = 1\ |\ \hat{y} = 1) = P(y = 1). $$ La probabilidad de acertar, es decir, la precisión esperada es entonces: $$ P(\hat{y} = y) = P(\hat{y} = 1) P(y = 1) + P(\hat{y} = 0) P(y = 0). $$ Si el conjunto de datos está desequilibrado, el modelo "aleatorio" con la mejor precisión esperada es el que siempre predice la clase mayoritaria, con una precisión esperada igual a la fracción de datos de la clase mayoritaria.

El principal problema con los conjuntos de datos muy desequilibrados (digamos un 99% de negativos) es que es probable que acabe con modelos triviales como los descritos anteriormente, es decir, un modelo que siempre predice la clase mayoritaria (negativa) y consigue una alta precisión (99%), por lo que este modelo inútil parece realmente bueno. Si utiliza una función de puntuación pobre (como la precisión) al optimizar los hiperparámetros, es muy probable que obtenga un modelo muy malo en entornos desequilibrados.

Esta es una de las muchas razones por las que deben evitarse las medidas discretas como la precisión. No tendrás esos problemas con medidas como el área bajo la curva ROC o PR.

Respondido el 24 de Abril, 2015 por Marc Claesen (9818 Puntos )

¿Cuál es el nivel de precisión del azar en los problemas de clasificación no equilibrada?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cuál es el nivel de precisión del azar en los problemas de clasificación no equilibrada?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: