Loading [MathJax]/jax/element/mml/optable/BasicLatin.js

6 votos

Es el objetivo de vencer al azar clasificador cuando el conjunto de datos está sesgada uso de PR curvas?

Tengo un conjunto de datos de prueba, donde 1/3 de las observaciones son de clase 1 los objetos y el resto de la clase-0. Por lo tanto, el conjunto de datos está sesgada (sesgada clasificador), la literatura sugiere que si el conjunto de datos es asimétrica, el uso de la Precisión Recall curvas (AUC) y no el ROC-AUC.

Por ejemplo, ejecute el siguiente código resultados en AUC_Pr_rand = 0.3267 y AUC_Pr_Ones = 0.3346. Donde el primero es un azar clasificador y el segundo, un no-algoritmo de aprendizaje la salida solamente.

n=10000;
Y = rand(n,1) > 2/3;
Yi = rand(n,1);
[~,~,~,AUC_Pr_rand] = perfcurve(Y,Yi,true, 'xCrit', 'reca', 'yCrit', 'prec');
[~,~,~,AUC_Pr_Ones] = perfcurve(Y,1+rand(size(Yi))*0.00001,true, 'xCrit', 'reca',    'yCrit', 'prec');

Un no-algoritmo de aprendizaje la salida de clase a-0, para que el anterior conjunto de pruebas (1/3 son de clase-uno) le dará una precisión de ~66%, pero la de arriba al azar clasificador da ~50% de exactitud (no estoy seguro de si esto significa algo, pero he probado un modelo de regresión logística y se dio una precisión de ~65%, por lo que no creo que la precisión es la métrica a utilizar para las pruebas de rendimiento).

Así que ahora para cualquier otro clasificador (es decir, la regresión logística o CARRO) probado en esta sesgada conjunto de datos, es el objetivo a batir esta azar clasificador, es decir, obtener un PR-AUC por encima de 0.3246 o 0.5 (porque eso es lo que un azar clasificador debe de salida como PR-AUC para un equilibrado conjunto de datos)?

4voto

Marc Claesen Puntos 9818

Un azar de los clasificadores selecciona al azar un subconjunto del total de los datos y las etiquetas como positivo. El tamaño de dicho subconjunto se asocia con el recuerdo de los que el azar clasificador. Desde predicciones se hacen completamente al azar, a la espera de la precisión de dicho etiquetado es igual a la fracción de positivos en el total del conjunto de datos (en cualquier recordar). Por lo tanto, la PR de la curva de un azar del clasificador es una línea horizontal en la precisión=ρ donde ρ es la fracción de positivos en el total del conjunto de datos. El AUC es inmediatamente también igual a ρ.

En PR espacio en el AUC de un modelo aleatorio está directamente relacionada con el equilibrio de clases. Un AUC de 0.5 puede significar un tremendo buen modelo para la clase alta de sesgo. Siempre compare PR-AUC para la clase dada el sesgo, no compararlo con el valor equilibrado.

Para responder a tu pregunta: en general, usted quiere golpear al azar clasificador, donde al azar en PR espacio significa tener la curva que se explicó anteriormente.

En la práctica, su objetivo depende enteramente de lo que quieres hacer. Obviamente, ser peor que el azar es generalmente un problema muy grave, pero no necesariamente a la materia. Por ejemplo, si su aplicación requiere de un modelo con alta recordar, no le importa si dicho modelo es peor que el azar en baja recuperación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X