Consideremos un conjunto de datos de clasificación binaria (X, Y), generado según una distribución desconocida $P(X, Y)$ . Tengo una pregunta sobre los modelos que producen probabilidades minimizando la pérdida de entropía cruzada (regresión logística y modelos profundos que utilizan una capa final softmax).
- ¿intentan estos modelos predecir la verdadero probabilidad condicional $P(Y|X)$ ?
- ¿o buscan un resultado más débil, como por ejemplo intentar acertar con el orden entre las clases?