33 votos

0-1 Explicación de la función de pérdida

Estoy tratando de entender cuál es el propósito de la función de pérdida y no puedo entenderlo.

Así que, por lo que entiendo, la función de pérdida sirve para introducir algún tipo de métrica con la que podamos medir el "coste" de una decisión incorrecta.

Así que digamos que tengo un conjunto de datos de 30 objetos, los dividí en conjuntos de entrenamiento / prueba como 20 / 10. Voy a utilizar la función de pérdida 0-1, así que digamos que mi conjunto de etiquetas de clase es M y la función se ve así:

$$ L(i, j) = \begin{cases} 0 \qquad i = j \\ 1 \qquad i \ne j \end{cases} \qquad i,j \in M $$

Así que construí un modelo en mis datos de entrenamiento, digamos que estoy usando el clasificador Naive Bayes, y este modelo clasificó 7 objetos correctamente (les asignó las etiquetas de clase correctas) y 3 objetos fueron clasificados incorrectamente.

Así que mi función de pérdida devolvería "0" 7 veces y "1" 3 veces - ¿qué tipo de información puedo obtener de eso? ¿Que mi modelo clasificó incorrectamente el 30% de los objetos? ¿O hay algo más?

Si hay algún error en mi forma de pensar lo siento mucho, sólo estoy tratando de aprender. Si el ejemplo que proporcioné es "demasiado abstracto", hágamelo saber, trataré de ser más específico. Si intenta explicar el concepto con un ejemplo diferente, por favor, utilice la función de pérdida 0-1.

20voto

Matt Puntos 588

Usted ha resumido correctamente la función de pérdida 0-1 como si se tratara de una precisión. Sus 1 se convierten en indicadores de elementos mal clasificados, independientemente de cómo se hayan clasificado mal. Dado que tiene tres 1 de 10 elementos, su precisión de clasificación es del 70%.

Si se cambia la ponderación de la función de pérdida, esta interpretación deja de ser válida. Por ejemplo, en la clasificación de enfermedades, podría ser más costoso pasar por alto un caso positivo de enfermedad (falso negativo) que diagnosticar falsamente la enfermedad (falso positivo). En este caso, su función de pérdida ponderaría más la clasificación errónea de los falsos negativos. La suma de sus pérdidas ya no representaría la precisión en este caso, sino el "coste" total de la clasificación errónea. La función de pérdida 0-1 es única en su equivalencia con la precisión, ya que lo único que le importa es si ha acertado o no, y no cómo se han cometido los errores.

0 votos

@JohnnyJohansson esa es la definición de precisión en estadística, ver es.wikipedia.org/wiki/Sensibilidad_y_specificidad

0 votos

@Tim - Sigo confundido con la función de pérdida 0-1 - ¿podría la matriz resultante tener cualquier valor mayor que 1, es decir, si hay 3 clasificaciones erróneas veríamos un valor de 3 en la entrada correspondiente? ver aquí math.stackexchange.com/questions/2623072/

1 votos

@XavierBourretSicotte Los valores de la matriz de costes no dependen del número de clasificaciones erróneas. Podrías definir la matriz de forma que clasificar erróneamente la clase A como clase B tenga un coste de 1, pero lo contrario tenga un coste de 3 (o cualquier valor arbitrario para cualquiera de las dos, en realidad, se trata más de relativa de los costes). A continuación, se observan las predicciones reales y se suma el coste total de las clasificaciones erróneas, por muchas que sean. Con un coste de 0 a 1, el coste total es igual al número de elementos clasificados erróneamente, pero para una función de coste arbitraria, es una puntuación de escala arbitraria en la que cuanto más baja, mejor.

4voto

Dipstick Puntos 4869

Sí, esto es básicamente: se cuenta el número de elementos mal clasificados. No hay nada más detrás, es una función de pérdida muy básica. Lo que sigue, la pérdida 0-1 lleva a estimar el modo de la distribución objetivo (en comparación con $L_1$ pérdida para estimar la mediana y $L_2$ pérdida para estimar la media).

1voto

David Puntos 41

Creo que tu confusión es no diferenciar la pérdida de un punto de datos frente a la pérdida de todo el conjunto de datos.

En concreto, su $L(y,\hat y)$ es la pérdida para un punto de datos (estoy cambiando un poco la notación). Y la pérdida para todo el conjunto de datos, es decir, la precisión de la clasificación, necesita sumar todos los puntos de datos.

$$ \sum_i L(y_i,\hat y_i) $$

0 votos

De hecho, entiendo la diferencia, pero me resulta difícil comprender para qué necesitaría esta pérdida para un punto de datos si no es para calcular la pérdida de todo el conjunto de datos. ¿Y qué debo tener en cuenta a la hora de elegir la función de pérdida adecuada para un problema concreto?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X