31 votos

¿Por qué se utiliza la función softmax para calcular las probabilidades, aunque podemos dividir cada valor por la suma del vector?

La aplicación de la softmax función de un vector se producen las "probabilidades" y valores entre los $0$ e $1$.

Pero también podemos dividir cada valor por la suma de los vectores y la que va a producir probabilidades y valores entre los $0$ e $1$.

He leído la respuesta en aquí , pero dice que la razón es porque es diferenciable, aunque Ambas funciones son diferenciables.

51voto

user777 Puntos 10934

La función que proponemos tiene una singularidad siempre que la suma de los elementos es cero.

Supongamos que el vector es $[-1, \frac{1}{3}, \frac{2}{3}]$. Este vector tiene una cantidad de 0, por lo que la división no está definida. La función no es diferenciable aquí.

Además, si uno o más de los elementos del vector a es negativo, pero la suma no es cero, el resultado no es una probabilidad.

Supongamos que el vector es $[-1, 0, 2]$. Esto tiene una suma de 1, por lo que la aplicación de sus resultados en función de $[-1, 0, 2]$, que no es un vector de probabilidad porque tiene elementos negativos, y los elementos superiores a 1.

Teniendo una visión más amplia, podemos motivar a la forma específica de la softmax función desde la perspectiva de la ampliación de la regresión logística binaria para el caso de tres o más resultados categóricos.

Hacer cosas como tomar valores absolutos o cuadrados, como se sugiere en los comentarios, significa que $-x$ e $x$ tienen la misma probabilidad predicha; esto significa que el modelo no es identificado. Por el contrario, $\exp(x)$ es monótona y positivo para todos los verdaderos $x$, por lo que el resultado es (1) una probabilidad del vector y (2) la logística multinomial modelo está identificado.

5voto

Beej Puntos 1

Softmax tiene dos componentes:

  1. Transformar los componentes de la e^x. Esto permite que la red neuronal para trabajar con logarítmica de probabilidades, en lugar del común de las probabilidades. Esto se convierte en el común de la operación de multiplicación de probabilidades en adición, que es mucho más natural para el álgebra lineal basada en la estructura de las redes neuronales.

  2. Normalizar su suma a 1, ya que es el total de la probabilidad de que tenemos necesidad.

Una consecuencia importante de esto es que el teorema de bayes es muy natural a dicha red, ya que sólo la multiplicación de las probabilidades normalizado por el denominador.

El caso trivial de una sola capa de red con softmax de activación es equivalente a la regresión logística.

El caso especial de dos componentes softmax es equivalente a la activación sigmoide, que es lo popular cuando hay sólo dos clases. En multi clase de la clasificación de softmax se utiliza si las clases son mutuamente excluyentes y componente sabio sigmoide se utiliza si son independientes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X