Conozco la fórmula del error cuadrático medio y sé cómo calcularla. Cuando hablamos de una regresión podemos calcular el error cuadrático medio. Sin embargo, ¿podemos hablar del error cuadrático medio en un problema de clasificación y cómo calcularlo?
Respuestas
¿Demasiados anuncios?Muchos clasificadores pueden predecir puntuaciones continuas. A menudo, las puntuaciones continuas son resultados intermedios que sólo se convierten en etiquetas de clase (normalmente por umbral) en el último paso de la clasificación. En otros casos, se pueden calcular, por ejemplo, probabilidades posteriores para la pertenencia a la clase (por ejemplo, análisis discriminante, regresión logística). Puede calcular el MSE utilizando estas puntuaciones continuas en lugar de las etiquetas de clase. La ventaja es que se evita la pérdida de información debida a la dicotomización.
Cuando la puntuación continua es una probabilidad, la métrica MSE se denomina puntuación de Brier.
Sin embargo, también hay problemas de clasificación que son más bien problemas de regresión disfrazados. En mi campo, podría tratarse, por ejemplo, de clasificar casos en función de si la concentración de alguna sustancia supera o no un límite legal (que es un problema binario/discriminativo de dos clases). En este caso, el MSE es una opción natural debido a la naturaleza regresiva subyacente de la tarea.
En este documento lo explicamos como parte de un marco más general: C. Beleites, R. Salzer y V. Sergo:
Validación de modelos de clasificación suaves utilizando membresías de clase parciales: Un Concepto Ampliado de Sensibilidad & Co. aplicado a la Clasificación de Tejidos de Astrocitomas
Chemom. Intell. Lab. Syst., 122 (2013), 12 - 22.
Cómo calcularlo: si trabajas en R, una implementación está en el paquete "softclassval", http:/softclassval.r-forge.r-project.org.
Para las estimaciones de probabilidad $\hat{\pi}$ no querrá calcular el MSE (la probabilidad logarítmica de una variable aleatoria Norma) sino utilizar la probabilidad de una variable aleatoria Bernoulli
$L=\prod_i \hat{\pi}_i^{y_i} (1-\hat{\pi}_i)^{1-y_i}$
Esta probabilidad es para una respuesta binaria, que se supone que tiene una distribución Bernoulli.
Si se toma el registro de $L$ y luego negar, se obtiene la pérdida logística, que es algo así como el análogo de MSE para cuando se tiene una respuesta binaria. En particular, MSE es la probabilidad logarítmica negativa para una respuesta continua que se supone que tiene una distribución normal.
Técnicamente se puede, pero la función MSE no es convexa para la clasificación binaria. Por lo tanto, si se entrena un modelo de clasificación binaria con la función de coste MSE, no está garantizado que minimice la función Coste . Además, el uso del MSE como función de coste presupone una distribución gaussiana, lo que no es el caso de la clasificación binaria.
No veo muy bien cómo... la clasificación correcta es una variable binaria (correcta o no), así que es difícil ver qué cuadraría.
Generalmente, las clasificaciones se miden con indicadores como el porcentaje de aciertos, cuando una clasificación que se ha estimado a partir de un conjunto de entrenamiento, se aplica a un conjunto de pruebas que se apartó anteriormente.
Sin duda, el error cuadrático medio puede calcularse (y se calcula) para predicciones o valores previstos de variables continuas, pero creo que no para clasificaciones.