1 votos

¿Por qué la regresión logística con una función de coste logarítmica converge a la clasificación óptima?

¿Por qué la regresión logística con una función de coste logarítmica converge al óptimo para el problema de clasificación (es decir, el mínimo número de muestras de entrenamiento mal etiquetadas)?

Dicho de otro modo, ¿por qué el óptimo de las probabilidades $h_\Theta(x) = P(y = 1|x;\Theta)$ ¿es equivalente al óptimo para el problema de clasificación?


Mi línea de pensamiento

Para la terminología y las fórmulas, véase el curso coursera de Andrew Ng sobre aprendizaje automático (diapositivas relevantes: https://github.com/vkosuri/CourseraMachineLearning/blob/master/home/week-3/lectures/pdf/Lecture6.pdf ).

Si utilizamos la función de coste convexa $J(\Theta) = -1/m * \Sigma_{i=1}^m ( y^{(i)} log h_\Theta(x^{(i)}) + (1 - y^{(i)}) log (1 - h_\Theta(x^{(i)})) )$ , penalizamos exponencialmente las mayores diferencias entre $h_\Theta(x)$ y $y$ . Así, esta regresión logística optimiza los parámetros $\Theta$ para las probabilidades $h_\Theta(x) = P(y = 1|x;\Theta)$ .

Pero para el problema de clasificación (en este ejemplo binario), utilizamos un umbral de $P=0.5$ para decidir si una muestra se clasifica como positiva o negativa. Por lo tanto, al problema de la clasificación no le importa si $P=0.4$ o $P=0$ Sin embargo, la función de coste hace una distinción exponencial. Así que no entiendo por qué la regresión logística con una función de coste logarítmica también converge al óptimo para el problema de clasificación .

Por ejemplo, $\Theta$ que produce muchas muestras con $h_\Theta(x)=0.4$ y $y=1$ tiene un coste menor (debido a la distinción exponencial) en comparación con $\Theta'$ que produce $(0.6,1)$ para la mayoría de esas muestras y $(0.1,1)$ para sólo algunas de esas muestras. Así que $J(\Theta')$ es mayor, pero $\Theta'$ clasifica mucho mejor en términos de cantidad de predicciones falsas sobre el conjunto de entrenamiento.

Si se da un mal paso de optimización, la regresión logística no debería ser capaz de converger a la clasificación óptima.

3voto

user777 Puntos 10934

Por tanto, no entiendo por qué la regresión logística con una función de coste logarítmica también converge al óptimo para el problema de clasificación.

La regresión logística no se ocupa de optimizar precisión, pero definitivamente está optimizando la pérdida de entropía cruzada.

Otra forma de pensar en ello es que la precisión consiste en descartar todos los detalles finos de las probabilidades predichas. La precisión trata $0.5+10^{-10}$ y $1.0-10^{-10}$ como exactamente la misma, porque ambas son mayores que 0,5, aunque la segunda describe la probabilidad del evento con mucha más confianza que la primera. En cambio, la pérdida de entropía cruzada $J$ penalizará las predicciones que estén lejos de la etiqueta, y el tamaño de la penalización aumenta cuanto más "incorrecta" sea esa predicción.

Debido a esta propiedad, es posible que haya situaciones en las que una regresión logística produzca probabilidades predichas que sean todas mayores que 0,5 (o si invertimos la codificación de los resultados, todas las probabilidades predichas son menores que 0,5). Esto suele ocurrir cuando una clase es mucho más frecuente que la otra y las características son, en el mejor de los casos, débiles predictores del resultado. Esto contradice claramente la expectativa de que los ejemplos positivos y negativos deberían estar en lados opuestos del límite de 0,5.

Véase el debate en La regresión logística predice todos los 1, y ningún 0 para más detalles.

Véase también: ¿Por qué la precisión no es la mejor medida para evaluar los modelos de clasificación?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X