Un enfoque típico para resolver un problema de clasificación es identificar una clase de modelos candidatos, y, a continuación, realizar la selección del modelo mediante algún procedimiento como de la validación cruzada. Normalmente, se selecciona el modelo con la mayor precisión, o algunos relacionados con la función que codifica problema de información específica, como $\text{F}_\beta$.
Suponiendo que el objetivo final es producir una precisa clasificación (en donde la definición de exactitud, otra vez, es dependiente del problema), ¿en qué situaciones es mejor realizar la selección del modelo mediante una adecuada regla de puntuación frente a algo indebido, como exactitud, precisión, recall, etc? Además, vamos a pasar por alto los problemas de la complejidad del modelo y asumir a priori consideramos todos los modelos igualmente probables.
Anteriormente me han dicho nunca. Sabemos que, en un sentido formal, la clasificación es más fácil que el problema de la regresión [1], [2] y se obtienen más estrictos límites de los antiguos que el posterior ($*$). Además, hay casos cuando tratando de coincidir probabilidades puede resultar en la incorrecta decisión de límites o de sobreajuste. Sin embargo, basado en la conversación aquí y el patrón de votación de la comunidad en lo que respecta a este tipo de cuestiones, me he estado cuestionando este punto de vista.
- Devroye, Luc. Un probabilística de la teoría de reconocimiento de patrones. Vol. 31. springer, 1996., La sección 6.7
- Kearns, Michael J. y Robert E. Schapire. La eficiencia de la distribución gratuita de aprendizaje de conceptos probabilísticos. Fundamentos de Ciencia de la computación, 1990. Procedimientos., 31 Simposio Anual. IEEE, 1990.
$(*)$ Esta declaración podría ser un poco descuidado. Específicamente quiero decir que, dada la etiqueta de datos de la forma$S = \{(x_1, y_1), \ldots, (x_n, y_n)\}$$x_i \in \mathcal{X}$$y_i \in \{1, \ldots, K\}$, parece ser más fácil estimar una decisión límite de calcular probabilidades condicionales.