Los algoritmos de aprendizaje automático, como los clasificadores, modelan estadísticamente los datos de entrada, aquí, determinando el probabilidades de la entrada perteneciente a diferentes categorías. Para un número arbitrario de clases, normalmente se añade una capa softmax al modelo, de modo que las salidas tendrían propiedades probabilísticas por diseño:
$$\vec{y} = \text{softmax}(\vec{a}) \equiv \frac{1}{\sum_i{ e^{-a_i} }} \times [e^{-a_1}, e^{-a_2}, ...,e^{-a_n}] $$
$$ 0 \le y_i \le 1 \text{ for all i}$$ $$ y_1 + y_2 + ... + y_n = 1$$
Aquí, $a$ es la activación de la capa anterior a la capa softmax.
Esto es perfectamente válido para dos clases, sin embargo, también se puede utilizar una neurona (en lugar de dos) dado que su salida satisface:
$$ 0 \le y \le 1 \text{ for all inputs.}$$ Esto puede asegurarse si se aplica una transformación (diferenciable/suave a efectos de retropropagación) que mapee $a$ a $y$ de manera que se cumpla la condición anterior. La función sigmoidea cumple nuestros criterios. No tiene nada de especial, aparte de una simple representación matemática,
$$ \text{sigmoid}(a) \equiv \sigma(a) \equiv \frac{1}{1+e^{-a}}$$
propiedades matemáticas útiles (diferenciación, estar acotado entre 0 y 1, etc.), eficiencia computacional y tener la pendiente adecuada para que la actualización de los pesos de la red tenga un cambio pequeño pero medible en la salida con fines de optimización.
Conclusión
No estoy seguro de que el razonamiento de @itdxer que demuestra que softmax y sigmoide son equivalentes sea válido, pero tiene razón en cuanto a elegir 1 neurona en lugar de 2 neuronas para clasificadores binarios ya que se necesitan menos parámetros y cálculos. También se me ha criticado por utilizar dos neuronas para un clasificador binario ya que "es superfluo".