10 votos

¿Cómo es softmax unidad derivada y lo que es la implicación?

Estoy tratando de entender por qué la softmax función se define como tal:

$\frac{e^{z_{j}}} {\Sigma^{K}_{k=1}{e^{z_{k}}}} = \sigma(z)$

Entiendo cómo esto normaliza los datos correctamente y se asigna a algunos intervalo (0, 1), pero la diferencia entre el peso de las probabilidades varía exponencialmente en vez de lineal. Hay una razón por la que queremos que este comportamiento?

También esta ecuación parece bastante arbitrario y creo que es una gran familia de ecuaciones puede satisfacer nuestras necesidades. No he visto ningún derivaciones en línea, así que estoy asumiendo que es una mera definición. ¿Por qué no elegir cualquier otra definición que satisface los mismos requisitos?

9voto

andynormancx Puntos 234

De la categoría de distribución es el mínimo supuesto del que se parte de la distribución sobre el apoyo de "un conjunto finito de mutuamente excluyentes resultados" dado el suficiente estadística de "lo que el resultado producido". En otras palabras, el uso de cualquier otro tipo de distribución adicional de la asunción. Sin ningún conocimiento previo, debe asumir un categórico de la distribución de este apoyo suficiente y estadística. Es una exponencial de la familia. (Mínima supuesto del que se parte de las distribuciones de un apoyo suficiente y estadística son las exponencial de las familias.)

La forma correcta de combinar dos creencias basadas en la información independiente es el pointwise producto de las densidades asegurándose de que no se doble antes de contar la información que hay en ambas creencias. Para un aumento exponencial de la familia, esta es una combinación de los recursos naturales de los parámetros.

La expectativa de los parámetros son los valores esperados de $x_k$ donde $x_k$ son el número de veces que se observó resultado $k$. Este es el derecho parametrización para la conversión de un conjunto de observaciones para un máximo de probabilidad de la distribución. Simplemente el promedio en este espacio. Esto es lo que usted desea cuando usted está modelando observaciones.

La logística multinomial función es la conversión de parámetros de naturaleza a la expectativa de los parámetros de la categoría de distribución. Se puede derivar de esta conversión, como el gradiente de la log-normalizador con respecto a los parámetros de naturaleza.

En resumen, la logística multinomial función se cae de tres supuestos: un apoyo, de una estadística suficiente, y un modelo cuya creencia es una combinación de piezas independientes de información.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X