31 votos

Las redes neuronales aprenden una función o una función de densidad de probabilidad

La pregunta puede sonar un poco extraño, porque soy nuevo en la inferencia estadística y las redes neuronales.

Cuando en problemas de clasificación mediante redes neuronales decimos que queremos aprender una función de $f^*$ que se asigna el espacio de las entradas $x$, para el espacio de las salidas $y$:

$$f^*(x; \theta) = y$$

Estamos ajuste de los parámetros ($\theta$) para el modelo no lineal de la función, o el modelo de una función de densidad de probabilidad?

Yo no sé realmente cómo escribir la pregunta en una forma mejor. He leído varias veces ambas cosas a la vez (función de densidad de probabilidad, función o igual que) así que por eso mi confusión.

27voto

netbook shopper Puntos 11

Estrictamente hablando, las redes neuronales son el ajuste de una función no lineal.

Que puede ser interpretado como el ajuste de una función de densidad de probabilidad si es conveniente funciones de activación son elegidos y ciertas condiciones son respetados (los Valores deben ser positivos y $\leq$ 1, etc...). Pero que es una cuestión de cómo usted elige para interpretar sus resultados, no de lo que realmente están haciendo. Bajo el capó, que aún están en función no lineal de los peritos, que usted está eligiendo para aplicar para el problema específico de PDF de estimación.

20voto

Joeri Sebrechts Puntos 7483

Generalmente, las Redes Neuronales no son utilizados para el modelo completo de densidades de probabilidad. Su enfoque es el modelo de la media de una distribución (o en el determinismo de la situación simplemente una función no lineal). Sin embargo es muy posible modelo completo de densidades de probabilidad a través de las Redes Neuronales.

Una manera fácil de hacer esto es, por ejemplo, para una Gaussiana caso es emitir la media de una salida y la varianza de la otra salida de la red y, a continuación, minimizar $-log N(y | x ;\mu,\sigma)$ función como parte del proceso de entrenamiento en lugar de los comunes del error cuadrado. Este el procedimiento de máxima verosimilitud para una Red Neuronal.

Una vez que el tren esta red cada vez que conecte un $x$ valor como una entrada, se le dará el $\mu$ e las $\sigma$, entonces usted puede conectar todo el triplete $y,\mu,\sigma$ a la densidad de $f(y|x)\sim N(\mu,\sigma)$ para obtener el valor de la densidad para cualquier $y$ le gusta. En esta etapa usted puede escoger el que $y$ valor de uso sobre la base de un verdadero dominio de la función de pérdida. Una cosa a tener en cuenta es que para $\mu$ la activación de la salida debe ser ilimitado, así que usted puede emiten $-\inf$ $+\inf$mientras $\sigma$ debe ser positivo sólo la activación.

En general, salvo que es una función determinista que estamos después, el estándar al cuadrado de la pérdida de entrenamiento utilizados en las redes neuronales es casi el mismo procedimiento que se describió anteriormente. Bajo el capó un $Gaussian$ distribución se asume implícitamente, sin preocuparse de la $\sigma$ y, si se examina detenidamente $-log N(y|x;\mu,\sigma)$ le da una expresión para el cuadrado de la pérdida (La función de pérdida de la Gaussiana estimador de máxima verosimilitud). En este escenario, sin embargo, en lugar de una $y$ valor a su gusto, usted se queda con emisión de $\mu$ cada vez que cuando se le da un nuevo $x$ del valor.

Para la clasificación de la salida será un $Bernoulli$ distribución en lugar de una $Gaussian$, que tiene un único parámetro a emitir. Como se especifica en la otra respuesta de este parámetro se entre $0$$1$, de modo que la activación de la salida debe ser en consecuencia. Puede ser una función logística o algo que logra el mismo objetivo.

Un método más sofisticado es el Obispo de la Densidad de la Mezcla de las Redes. Usted puede leer sobre esto en la sección de referencia de papel aquí:

https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf

1voto

Aksakal Puntos 11351

Mi disidente respuesta es que en la mayoría de los impresionantes aplicaciones prácticas (aquellos donde reciben más cobertura en los medios de comunicación, por ejemplo) no es ni la función ni de las probabilidades. Implementar el estocástico toma de decisiones.

En la superficie se ve como NN son solo ajuste de la función de la cola de la universal de aproximación de referencia. En algunos casos, cuando ciertas funciones de activación y en particular de supuestos tales como errores de Gauss se utilizan o cuando usted lee los papeles en las redes Bayesianas, parece que NN puede producir las distribuciones de probabilidad.

Sin embargo, esto es sólo por el camino. Lo que NN se pretende hacer es modelo de toma de decisiones. Cuando un coche es impulsado por AI, sus NN no es tratando de calcular la probabilidad de que sea un objeto delante de él, dado que no es un objeto para calcular la probabilidad de que un humano. Ni es el cálculo de la asignación de entradas de sensor a varios tipos de objetos. No, NN se supone que para tomar una decisión basada en todas las entradas para dirigir hacia los lados o mantener la conducción a través de. No es el cálculo de la probabilidad, es decir el coche qué hacer.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X