6 votos

Función de pérdida para la regresión logística

Si estamos haciendo una clasificación binaria utilizando la regresión logística, a menudo utilizamos la función de entropía cruzada como nuestra función de pérdida. Más concretamente, supongamos que tenemos TT ejemplos de formación de la forma (x(t),y(t))(x(t),y(t)) , donde x(t)Rn+1,y(t){0,1} utilizamos la siguiente función de pérdida LF(θ)=1Ttytlog(sigm(θTx))+(1y(t))log(1sigm(θTx), donde sigm denota la función sigmoidea.

Pregunta: Sin embargo, si hacemos una regresión lineal, solemos utilizar el error cuadrado como función de pérdida. ¿Hay alguna razón específica para utilizar la función de entropía cruzada en lugar de utilizar el error cuadrado o el error de clasificación en la regresión logística?

He leído en alguna parte que, si utilizamos el error cuadrado para la clasificación binaria, la función de pérdida resultante no sería convexa. ¿Es esta la única razón, o hay alguna otra razón más profunda que se me escapa?

Intento: Para tener una idea de cómo serían las diferentes funciones de pérdida, he generado 50 puntos de datos aleatorios a ambos lados de la línea y=x . He asignado la clase c=1 a los puntos de datos que están presentes en un lado de la línea y=x y c=0 a los otros puntos de datos. Tras generar estos datos, he calculado los costes de las distintas líneas θ1xθ2y=0 que pasan por el origen utilizando las siguientes funciones de pérdida:

  1. función de error cuadrado utilizando las etiquetas predichas y las etiquetas reales.
  2. función de error cuadrático utilizando las puntuaciones continuas θTx en lugar de umbralizar por 0 .
  3. función de error cuadrático utilizando las puntuaciones continuas sigm(θTx) .
  4. error de clasificación, es decir, número de puntos mal clasificados.
  5. función de pérdida de entropía cruzada.

He considerado sólo las líneas que pasan por el origen en lugar de las líneas generales, como θ1xθ2y+θ0=0 para poder trazar la función de pérdida. He obtenido los siguientes gráficos. enter image description here enter image description here De los gráficos anteriores, podemos deducir lo siguiente:

  1. La parcela correspondiente a 1 no es suave, ni siquiera es continua, ni convexa. Esto tiene sentido porque el coste sólo puede tomar un número finito de valores para cualquier θ1,θ2 .
  2. La parcela correspondiente a 2 es suave y convexa.
  3. La parcela correspondiente a 3 es suave pero no es convexa.
  4. La parcela correspondiente a 4 no es ni suave ni convexo, similar a 1 .
  5. La parcela correspondiente a 5 es suave y convexa, similar a 2 .

Si no me equivoco, para minimizar la función de pérdida, las funciones de pérdida correspondientes a (2) y (5) son igualmente buenas ya que ambas son funciones suaves y convexas.

¿Hay alguna razón para utilizar (5) en lugar de (2) ? Además, aparte de la suavidad o la convexidad, ¿hay alguna razón para preferir la función de pérdida de entropía cruzada en lugar de la de error cuadrado?

8voto

dan90266 Puntos 609

Te has equivocado de camino como se detalla aquí . Sólo porque tengas un binario Y no significa que te interese la clasificación. Lo que realmente te interesa es un modelo de probabilidad, por lo que la regresión logística es una buena opción. Acierta con la nomenclatura o confundirás a todo el mundo.

En cuanto al punto principal, la teoría de la estimación estadística muestra que, en ausencia de información externa (lo que le haría utilizar la regresión logística bayesiana), la estimación de máxima verosimilitud es el estándar de oro para la eficiencia y el sesgo. La función de máxima verosimilitud proporciona el función objetivo.

Puede que hayas confundido una función de pérdida/coste/utilidad con la optimización de la estimación. Obtenga las estimaciones óptimas utilizando la estimación de máxima verosimilitud o la máxima verosimilitud penalizada (o un mejor modelado bayesiano si tiene restricciones u otra información). La función de utilidad entra en juego cuando se necesita tomar una decisión óptima para minimizar la pérdida esperada (maximizar la utilidad esperada). Pero no creo que estés preguntando por el análisis de decisiones. Así que quédate con la función objetivo estándar: la probabilidad logarítmica.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X