Tengo un conjunto de datos de prueba, donde 1/3 de las observaciones son de clase 1 los objetos y el resto de la clase-0. Por lo tanto, el conjunto de datos está sesgada (sesgada clasificador), la literatura sugiere que si el conjunto de datos es asimétrica, el uso de la Precisión Recall curvas (AUC) y no el ROC-AUC.
Por ejemplo, ejecute el siguiente código resultados en AUC_Pr_rand = 0.3267 y AUC_Pr_Ones = 0.3346. Donde el primero es un azar clasificador y el segundo, un no-algoritmo de aprendizaje la salida solamente.
n=10000;
Y = rand(n,1) > 2/3;
Yi = rand(n,1);
[~,~,~,AUC_Pr_rand] = perfcurve(Y,Yi,true, 'xCrit', 'reca', 'yCrit', 'prec');
[~,~,~,AUC_Pr_Ones] = perfcurve(Y,1+rand(size(Yi))*0.00001,true, 'xCrit', 'reca', 'yCrit', 'prec');
Un no-algoritmo de aprendizaje la salida de clase a-0, para que el anterior conjunto de pruebas (1/3 son de clase-uno) le dará una precisión de ~66%, pero la de arriba al azar clasificador da ~50% de exactitud (no estoy seguro de si esto significa algo, pero he probado un modelo de regresión logística y se dio una precisión de ~65%, por lo que no creo que la precisión es la métrica a utilizar para las pruebas de rendimiento).
Así que ahora para cualquier otro clasificador (es decir, la regresión logística o CARRO) probado en esta sesgada conjunto de datos, es el objetivo a batir esta azar clasificador, es decir, obtener un PR-AUC por encima de 0.3246 o 0.5 (porque eso es lo que un azar clasificador debe de salida como PR-AUC para un equilibrado conjunto de datos)?