He creado una red neuronal cuya capa final emite un único valor sigmoide activado. He entrenado la red con datos etiquetados en binario (es decir, datos etiquetados con 0 para la clase negativa o con 1 para la clase positiva). Normalmente, al predecir la clase de unos datos no etiquetados, asumiría que son de clase positiva si la salida de la red para esos datos está por encima de algún límite (digamos, 0,5) y de clase negativa en caso contrario. Sin embargo, quiero saber si puedo interpretar correctamente la salida de dicha red como una probabilidad que una muestra dada es de clase positiva.
Dado que la función sigmoidea - concretamente, en este caso, la función logística $$\frac{1}{1 + e^{-x}}$$ -- tiene alcance $[0, 1]$ parece razonable interpretar sus resultados como probabilidades, y he visto algunas fuentes que me llevan a pensar que esta es de hecho una interpretación válida (por ejemplo este puesto ), aunque no estoy seguro de por qué, matemáticamente, este sería el caso y bajo qué condiciones se mantendría.