Si estamos haciendo una clasificación binaria utilizando la regresión logística, a menudo utilizamos la función de entropía cruzada como nuestra función de pérdida. Más concretamente, supongamos que tenemos TT ejemplos de formación de la forma (x(t),y(t))(x(t),y(t)) , donde x(t)∈Rn+1,y(t)∈{0,1} utilizamos la siguiente función de pérdida LF(θ)=−1T∑tytlog(sigm(θTx))+(1−y(t))log(1−sigm(θTx), donde sigm denota la función sigmoidea.
Pregunta: Sin embargo, si hacemos una regresión lineal, solemos utilizar el error cuadrado como función de pérdida. ¿Hay alguna razón específica para utilizar la función de entropía cruzada en lugar de utilizar el error cuadrado o el error de clasificación en la regresión logística?
He leído en alguna parte que, si utilizamos el error cuadrado para la clasificación binaria, la función de pérdida resultante no sería convexa. ¿Es esta la única razón, o hay alguna otra razón más profunda que se me escapa?
Intento: Para tener una idea de cómo serían las diferentes funciones de pérdida, he generado 50 puntos de datos aleatorios a ambos lados de la línea y=x . He asignado la clase c=1 a los puntos de datos que están presentes en un lado de la línea y=x y c=0 a los otros puntos de datos. Tras generar estos datos, he calculado los costes de las distintas líneas θ1x−θ2y=0 que pasan por el origen utilizando las siguientes funciones de pérdida:
- función de error cuadrado utilizando las etiquetas predichas y las etiquetas reales.
- función de error cuadrático utilizando las puntuaciones continuas θTx en lugar de umbralizar por 0 .
- función de error cuadrático utilizando las puntuaciones continuas sigm(θTx) .
- error de clasificación, es decir, número de puntos mal clasificados.
- función de pérdida de entropía cruzada.
He considerado sólo las líneas que pasan por el origen en lugar de las líneas generales, como θ1x−θ2y+θ0=0 para poder trazar la función de pérdida. He obtenido los siguientes gráficos.
De los gráficos anteriores, podemos deducir lo siguiente:
- La parcela correspondiente a 1 no es suave, ni siquiera es continua, ni convexa. Esto tiene sentido porque el coste sólo puede tomar un número finito de valores para cualquier θ1,θ2 .
- La parcela correspondiente a 2 es suave y convexa.
- La parcela correspondiente a 3 es suave pero no es convexa.
- La parcela correspondiente a 4 no es ni suave ni convexo, similar a 1 .
- La parcela correspondiente a 5 es suave y convexa, similar a 2 .
Si no me equivoco, para minimizar la función de pérdida, las funciones de pérdida correspondientes a (2) y (5) son igualmente buenas ya que ambas son funciones suaves y convexas.
¿Hay alguna razón para utilizar (5) en lugar de (2) ? Además, aparte de la suavidad o la convexidad, ¿hay alguna razón para preferir la función de pérdida de entropía cruzada en lugar de la de error cuadrado?