Generalmente, las Redes Neuronales no son utilizados para el modelo completo de densidades de probabilidad. Su enfoque es el modelo de la media de una distribución (o en el determinismo de la situación simplemente una función no lineal). Sin embargo es muy posible modelo completo de densidades de probabilidad a través de las Redes Neuronales.
Una manera fácil de hacer esto es, por ejemplo, para una Gaussiana caso es emitir la media de una salida y la varianza de la otra salida de la red y, a continuación, minimizar $-log N(y | x ;\mu,\sigma)$ función como parte del proceso de entrenamiento en lugar de los comunes del error cuadrado. Este el procedimiento de máxima verosimilitud para una Red Neuronal.
Una vez que el tren esta red cada vez que conecte un $x$ valor como una entrada, se le dará el $\mu$ e las $\sigma$, entonces usted puede conectar todo el triplete $y,\mu,\sigma$ a la densidad de $f(y|x)\sim N(\mu,\sigma)$ para obtener el valor de la densidad para cualquier $y$ le gusta. En esta etapa usted puede escoger el que $y$ valor de uso sobre la base de un verdadero dominio de la función de pérdida. Una cosa a tener en cuenta es que para $\mu$ la activación de la salida debe ser ilimitado, así que usted puede emiten $-\inf$ $+\inf$mientras $\sigma$ debe ser positivo sólo la activación.
En general, salvo que es una función determinista que estamos después, el estándar al cuadrado de la pérdida de entrenamiento utilizados en las redes neuronales es casi el mismo procedimiento que se describió anteriormente. Bajo el capó un $Gaussian$ distribución se asume implícitamente, sin preocuparse de la $\sigma$ y, si se examina detenidamente $-log N(y|x;\mu,\sigma)$ le da una expresión para el cuadrado de la pérdida (La función de pérdida de la Gaussiana estimador de máxima verosimilitud). En este escenario, sin embargo, en lugar de una $y$ valor a su gusto, usted se queda con emisión de $\mu$ cada vez que cuando se le da un nuevo $x$ del valor.
Para la clasificación de la salida será un $Bernoulli$ distribución en lugar de una $Gaussian$, que tiene un único parámetro a emitir. Como se especifica en la otra respuesta de este parámetro se entre $0$$1$, de modo que la activación de la salida debe ser en consecuencia. Puede ser una función logística o algo que logra el mismo objetivo.
Un método más sofisticado es el Obispo de la Densidad de la Mezcla de las Redes. Usted puede leer sobre esto en la sección de referencia de papel aquí:
https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf