28 votos

¿Por qué hay dos formulaciones / notaciones de pérdidas logísticas diferentes?

He visto dos tipos de formulaciones de pérdidas logísticas. Podemos demostrar fácilmente que son idénticas, la única diferencia es la definición de la etiqueta $y$ .

Formulación/notación 1, $y \in \{0, +1\}$ :

$$ L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) $$

donde $p=\frac 1 {1+\exp(-\beta^Tx)}$ donde la función logística mapea un número real $\beta^T x$ a un intervalo de 0,1.

Formulación/anotación 2, $y \in \{-1, +1\}$ :

$$ L(y,\beta^Tx)=\log(1+\exp{(-y\cdot \beta^Tx})) $$

Elegir una notación es como elegir un idioma, hay pros y contras para usar una u otra. ¿Cuáles son los pros y los contras de estas dos notaciones?


Mi intento de responder a esta pregunta es que parece que a la comunidad estadística le gusta la primera notación y a la comunidad informática la segunda.

  • La primera notación se puede explicar con el término "probabilidad", ya que la función logística transforma un número real $\beta^Tx$ a un intervalo de 0,1.
  • Y la segunda notación es más concisa y es más fácil de comparar con la pérdida de bisagra o la pérdida de 0-1.

¿Estoy en lo cierto? ¿Alguna otra idea?

12voto

trish Puntos 31

La versión corta

La versión larga

Lo bueno de la modelización matemática es que es flexible. En efecto, se trata de funciones de pérdida equivalentes, pero derivan de modelos subyacentes de los datos muy diferentes.

Fórmula 1

La primera notación se deriva de un Modelo de probabilidad Bernoulli para $y$ que se define convencionalmente en $\{0, 1\}$ . En este modelo, el resultado/etiqueta/clase/predicción está representado por una variable aleatoria $Y$ que sigue a un $\mathrm{Bernoulli}(p)$ distribución. Por lo tanto su probabilidad es: $$ P(Y = y\ |\ p) = \mathcal L(p; y) = p^y\ (1-p)^{1-y} = \begin{cases}1-p &y=0 \\ p &y=1 \end{cases} $$

para $p\in[0, 1]$ . El uso de 0 y 1 como valores indicadores nos permite reducir la función a trozos de la extrema derecha a una expresión concisa.

Como usted ha señalado, puede entonces enlazar $Y$ a una matriz de datos de entrada $x$ dejando $\operatorname{logit} p = \beta^T x$ . A partir de aquí, una sencilla manipulación algebraica revela que $\log \mathcal L(p;y)$ es la misma que la primera $L(y, \beta^Tx)$ en su pregunta (pista: $(y - 1) = - (1 - y)$ ). Así que la minimización de la pérdida logarítmica sobre $\{0, 1\}$ es equivalente a la estimación de máxima verosimilitud de un modelo Bernoulli.

Esta formulación es también un caso especial de la modelo lineal generalizado que se formula como $Y \sim D(\theta),\ g(Y) = \beta^T x$ para una función invertible y diferenciable $g$ y una distribución $D$ en el familia exponencial .

Fórmula 2

En realidad No estoy familiarizado con la Fórmula 2. Sin embargo, definir $y$ en $\{-1, 1\}$ es estándar en la formulación de un máquina de vectores de apoyo . Ajustar una SVM corresponde a maximizar $$ \max \left(\{0, 1 - y \beta^T x \}\right) + \lambda \|\beta\|^2. $$

Esta es la Forma lagrangiana de un problema de optimización con restricciones. Es también un ejemplo de regularizado problema de optimización con función objetivo $$ \ell(y, \beta) + \lambda \|\beta\|^2 $$ Para alguna función de pérdida $\ell$ y un hiperparámetro escalar $\lambda$ que controla la cantidad de regularización (también llamada "contracción") aplicada a $\beta$ . La pérdida de la bisagra es sólo una de las varias posibilidades de $\ell$ que también incluyen el segundo $L(y, \beta^Tx)$ en su pregunta.

8voto

David Puntos 41

Creo que @ssdecontrol tuvo una muy buena respuesta. Sólo quiero añadir algunos comentarios para la fórmula 2 para mi propia pregunta.

$$ L(y,\hat y)=\log(1+\exp{(-y\cdot \hat y})) $$

La razón por la que a la gente le gusta esta formulación es que es muy concisa y elimina los "detalles de interpretación de la probabilidad".

La notación complicada es el $\hat y$ , nota, $y$ es una variable binaria, pero $\hat y$ aquí es un número real. En comparación con la formulación 1, necesitamos dos pasos adicionales para llegar a la etiqueta discreta, paso 1. función sigmod paso 2. aplicar el umbral de 0,5.

Pero sin estos detalles son buenos en términos de que podemos comparar fácilmente con otra pérdida de clasificación, como la pérdida de 01 o la pérdida de la bisagra. $$ L_{01}(y,\hat y)=I[y \cdot \hat y >0]\\ L_{\text{hinge}}(y,\hat y)=(1-y \cdot \hat y)_+\\ L_{\text{logistic}}(y,\hat y)=\log(1+\exp(-y \cdot \hat y)) $$

enter image description here

Aquí trazamos tres funciones de pérdida, el eje x es $y \cdot \hat y$ y el eje Y es el valor de la pérdida. Obsérvese que en todas las fórmulas anteriores $\hat y$ es un número real, y este número puede venir de forma lineal $\beta^Tx$ u otras formas. Esta notación oculta los detalles de la probabilidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X