12 votos

¿Cuando es una regla de puntuación apropiada una estimación mejor de generalización en un entorno de clasificación?

Un enfoque típico para resolver un problema de clasificación es identificar una clase de modelos candidatos, y, a continuación, realizar la selección del modelo mediante algún procedimiento como de la validación cruzada. Normalmente, se selecciona el modelo con la mayor precisión, o algunos relacionados con la función que codifica problema de información específica, como $\text{F}_\beta$.

Suponiendo que el objetivo final es producir una precisa clasificación (en donde la definición de exactitud, otra vez, es dependiente del problema), ¿en qué situaciones es mejor realizar la selección del modelo mediante una adecuada regla de puntuación frente a algo indebido, como exactitud, precisión, recall, etc? Además, vamos a pasar por alto los problemas de la complejidad del modelo y asumir a priori consideramos todos los modelos igualmente probables.

Anteriormente me han dicho nunca. Sabemos que, en un sentido formal, la clasificación es más fácil que el problema de la regresión [1], [2] y se obtienen más estrictos límites de los antiguos que el posterior ($*$). Además, hay casos cuando tratando de coincidir probabilidades puede resultar en la incorrecta decisión de límites o de sobreajuste. Sin embargo, basado en la conversación aquí y el patrón de votación de la comunidad en lo que respecta a este tipo de cuestiones, me he estado cuestionando este punto de vista.

  1. Devroye, Luc. Un probabilística de la teoría de reconocimiento de patrones. Vol. 31. springer, 1996., La sección 6.7
  2. Kearns, Michael J. y Robert E. Schapire. La eficiencia de la distribución gratuita de aprendizaje de conceptos probabilísticos. Fundamentos de Ciencia de la computación, 1990. Procedimientos., 31 Simposio Anual. IEEE, 1990.

$(*)$ Esta declaración podría ser un poco descuidado. Específicamente quiero decir que, dada la etiqueta de datos de la forma$S = \{(x_1, y_1), \ldots, (x_n, y_n)\}$$x_i \in \mathcal{X}$$y_i \in \{1, \ldots, K\}$, parece ser más fácil estimar una decisión límite de calcular probabilidades condicionales.

4voto

dan90266 Puntos 609

Piense en esto como una comparación entre el $t$-prueba/test de Wilcoxon y el estado de Ánimo de la mediana de la prueba. La mediana de la prueba utiliza una óptima clasificación (por encima o por debajo de la mediana de una variable continua) de modo que sólo pierde la $\frac{1}{\pi}$ de la información en la muestra. Dichotomization en un punto diferente de la mediana perderá mucha más información. El uso indebido regla de puntuación, tales como la proporción clasificados "correctamente" es en la mayoría de las $\frac{2}{\pi}$ o acerca de $\frac{2}{3}$ eficiente. Esto resulta en la selección de las malas características y la búsqueda de un modelo que es falso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X