OP cree erróneamente que la relación entre estas dos funciones se debe al número de muestras (es decir, una sola frente a todas). Sin embargo, la diferencia real es simplemente cómo seleccionamos nuestras etiquetas de entrenamiento.
En el caso de la clasificación binaria podemos asignar las etiquetas $y=\pm1$ o $y=0,1$ .
Como ya se ha dicho, la función logística $\sigma(z)$ es una buena opción ya que tiene la forma de una probabilidad, es decir $\sigma(-z)=1-\sigma(z)$ y $\sigma(z)\in (0,1)$ como $z\rightarrow \pm \infty$ . Si elegimos las etiquetas $y=0,1$ podemos asignar
\begin{equation} \begin{aligned} \mathbb{P}(y=1|z) & =\sigma(z)=\frac{1}{1+e^{-z}}\\ \mathbb{P}(y=0|z) & =1-\sigma(z)=\frac{1}{1+e^{z}}\\ \end{aligned} \end{equation}
que puede escribirse de forma más compacta como $\mathbb{P}(y|z) =\sigma(z)^y(1-\sigma(z))^{1-y}$ .
Es más fácil maximizar la log-verosimilitud. Maximizar la log-verosimilitud es lo mismo que minimizar la log-verosimilitud negativa. Para $m$ muestras $\{x_i,y_i\}$ Después de tomar el logaritmo natural y alguna simplificación, encontraremos
\begin{equation} \begin{aligned} l(z)=-\log\big(\prod_i^m\mathbb{P}(y_i|z_i)\big)=-\sum_i^m\log\big(\mathbb{P}(y_i|z_i)\big)=\sum_i^m-y_iz_i+\log(1+e^{z_i}) \end{aligned} \end{equation}
La derivación completa y la información adicional se pueden encontrar en este cuaderno jupyter . Por otro lado, podríamos haber utilizado en su lugar las etiquetas $y=\pm 1$ . Es bastante obvio entonces que podemos asignar
\begin{equation} \mathbb{P}(y|z)=\sigma(yz). \end{equation}
También es obvio que $\mathbb{P}(y=0|z)=\mathbb{P}(y=-1|z)=\sigma(-z)$ . Siguiendo los mismos pasos que antes minimizamos en este caso la función de pérdida
\begin{equation} \begin{aligned} L(z)=-\log\big(\prod_j^m\mathbb{P}(y_j|z_j)\big)=-\sum_j^m\log\big(\mathbb{P}(y_j|z_j)\big)=\sum_j^m\log(1+e^{-yz_j}) \end{aligned} \end{equation}
Donde el último paso sigue después de tomar el recíproco que es inducido por el signo negativo. Aunque no debemos equiparar estas dos formas, dado que en cada una de ellas $y$ toma valores diferentes, sin embargo estos dos son equivalentes:
\begin{equation} \begin{aligned} -y_iz_i+\log(1+e^{z_i})\equiv \log(1+e^{-yz_j}) \end{aligned} \end{equation}
El caso $y_i=1$ es trivial de mostrar. Si $y_i \neq 1$ entonces $y_i=0$ en el lado izquierdo y $y_i=-1$ en el lado derecho.
Aunque puede haber razones fundamentales para que tengamos dos formas diferentes (véase ¿Por qué hay dos formulaciones / notaciones de pérdidas logísticas diferentes? ), una de las razones para elegir la primera es por consideraciones prácticas. En la primera podemos utilizar la propiedad $\partial \sigma(z) / \partial z=\sigma(z)(1-\sigma(z))$ para calcular trivialmente $\nabla l(z)$ y $\nabla^2l(z)$ , ambos necesarios para el análisis de convergencia (es decir, para determinar la convexidad de la función de pérdida por calcular el hessiano ).