Tengo una pregunta sobre la clasificación en general. Dejemos que $f$ sea un clasificador, que produce un conjunto de probabilidades dados unos datos D. Normalmente, uno diría: bueno, si $P(c|D) > 0.5$ asignaremos una clase 1, en caso contrario 0 (se trata de una clasificación binaria).
Mi pregunta es, ¿qué pasa si descubro que si clasifico la clase como 1 también cuando las probabilidades son mayores que, por ejemplo, 0,2, y el clasificador funciona mejor? ¿Es legítimo utilizar entonces este nuevo umbral al hacer la clasificación?
Yo interpretaría la necesidad de un límite de clasificación más bajo en el contexto de que los datos emiten una señal más pequeña, pero aún así significativa para el problema de clasificación.
Me doy cuenta de que esta es una forma de hacerlo. Sin embargo, si esto no es correcto pensar en reducir el umbral, ¿cuáles serían algunas transformaciones de datos, que hacen hincapié en las características individuales de una manera similar, de modo que el umbral puede permanecer en 0,5?