Supongamos que estoy construyendo un clasificador de regresión logística que predice si alguien está casado o soltero. (1 = casado, 0 = soltero) Quiero elegir un punto en la curva de precisión-recuerdo que me dé al menos un 75% de precisión, por lo que quiero elegir umbrales $t_1$ y $t_2$ para que..:
- Si el resultado de mi clasificador es mayor que $t_1$ , salgo "casado".
- Si el resultado es inferior a $t_2$ , yo salgo "soltero".
- Si la salida está en el medio, doy un "no sé".
Un par de preguntas:
- Creo que, según la definición estándar de precisión, se medirá la precisión de la clase de casados únicamente (es decir, precisión = # de veces que predigo correctamente casados / # total de veces que predigo casados). Sin embargo, lo que realmente quiero hacer es medir la precisión global (es decir, el total de veces que predigo correctamente casado o soltero / el total de veces que predigo casado o soltero). ¿Está bien hacer esto? Si no, ¿qué debería hacer?
- ¿Hay alguna manera de calcular esta curva "global" de precisión/recuperación en R (por ejemplo, utilizando el paquete ROCR o alguna otra biblioteca)? Actualmente estoy utilizando el paquete ROCR, pero parece que sólo me da la precisión/recuperación de una sola clase a la vez.