En realidad, la función de pérdida cuadrática $\mathcal L (y,\hat y)=(y-\hat y)^2$ y OLS pueden aplicarse a salidas binarias. Algunos lo hacen. Sin embargo, cuando la variable dependiente (VD) es binaria, normalmente, la pérdida de entropía cruzada $y \ln \hat y$ se utiliza.
Entonces, ¿de dónde viene esta pérdida de entropía? De hecho, la verdadera pregunta es: ¿cómo se elige una función de pérdida? ¿Por qué una pérdida cuadrática, por qué no un porcentaje absoluto ( APE ) pérdida $|(y-\hat y)/y|$ o pérdida absoluta $|y-\hat y|$ ?
Una forma de llegar a cualquier función de pérdida es a través de un análisis probabilístico como la estimación de máxima verosimilitud (MLE). Para la configuración de regresión común como $y=X\beta+\varepsilon$ bajo supuestos a menudo razonables, con la MLE se llega a la conocida función de pérdida cuadrática.
Sin embargo, para la VD binaria suelen ser más adecuados modelos como el logit $y=\frac{e^{X\beta}}{1+e^{X\beta}}$ o en otra formulación $y=\mathrm{logit}(X\beta)$ . La función logit produce resultados entre 0 y 1, y a veces puede interpretarse como la probabilidad de la categoría. No es inmediatamente obvio si la pérdida cuadrática se puede utilizar en este caso.
Resulta que cuando se aplica MLE a este problema En este caso, también bajo supuestos razonables, la función de pérdida tiene una forma diferente: a entropía cruzada .
Esta era sólo una forma de argumentar la pérdida de entropía cruzada en los problemas de DV binario. No es la única manera, y ni siquiera es necesariamente la mejor. Una alternativa sería empezar por minimizar las pérdidas reales que importan a sus clientes. Se expresarían las pérdidas en dólares o en desutilidad, y se trataría de minimizarlas. Este tipo de análisis podría conducir a una función de pérdidas completamente diferente. Rara vez se lleva a cabo porque es demasiado difícil.