¿Por qué la regresión logística con una función de coste logarítmica converge al óptimo para el problema de clasificación (es decir, el mínimo número de muestras de entrenamiento mal etiquetadas)?
Dicho de otro modo, ¿por qué el óptimo de las probabilidades $h_\Theta(x) = P(y = 1|x;\Theta)$ ¿es equivalente al óptimo para el problema de clasificación?
Mi línea de pensamiento
Para la terminología y las fórmulas, véase el curso coursera de Andrew Ng sobre aprendizaje automático (diapositivas relevantes: https://github.com/vkosuri/CourseraMachineLearning/blob/master/home/week-3/lectures/pdf/Lecture6.pdf ).
Si utilizamos la función de coste convexa $J(\Theta) = -1/m * \Sigma_{i=1}^m ( y^{(i)} log h_\Theta(x^{(i)}) + (1 - y^{(i)}) log (1 - h_\Theta(x^{(i)})) )$ , penalizamos exponencialmente las mayores diferencias entre $h_\Theta(x)$ y $y$ . Así, esta regresión logística optimiza los parámetros $\Theta$ para las probabilidades $h_\Theta(x) = P(y = 1|x;\Theta)$ .
Pero para el problema de clasificación (en este ejemplo binario), utilizamos un umbral de $P=0.5$ para decidir si una muestra se clasifica como positiva o negativa. Por lo tanto, al problema de la clasificación no le importa si $P=0.4$ o $P=0$ Sin embargo, la función de coste hace una distinción exponencial. Así que no entiendo por qué la regresión logística con una función de coste logarítmica también converge al óptimo para el problema de clasificación .
Por ejemplo, $\Theta$ que produce muchas muestras con $h_\Theta(x)=0.4$ y $y=1$ tiene un coste menor (debido a la distinción exponencial) en comparación con $\Theta'$ que produce $(0.6,1)$ para la mayoría de esas muestras y $(0.1,1)$ para sólo algunas de esas muestras. Así que $J(\Theta')$ es mayor, pero $\Theta'$ clasifica mucho mejor en términos de cantidad de predicciones falsas sobre el conjunto de entrenamiento.
Si se da un mal paso de optimización, la regresión logística no debería ser capaz de converger a la clasificación óptima.