El tema de mi tesis doctoral fue revelar las propiedades de caja negra de las redes neuronales, concretamente de las redes neuronales feed-forward, con una o dos capas ocultas.
Voy a aceptar el reto de explicar a todo el mundo lo que significan los pesos y los términos de sesgo, en una red neuronal feed-forward de una capa. Se abordarán dos perspectivas diferentes: una paramétrica y otra probabilística.
En lo que sigue, asumo que los valores de entrada proporcionados a cada neurona de entrada han sido todos normalizados al intervalo (0,1), mediante un escalado lineal ( $x_{input}=\alpha \cdot x + \beta$ ), donde los dos coeficientes $\alpha$ y $\beta$ se eligen por variable de entrada, de manera que $x_{input} \in (0,1)$ . Hago una distinción entre variables numeradas reales, y variables enumeradas (con una variable booleana como un caso especial de variable enumerada):
- Una variable con número real se proporciona como un número decimal entre $0$ y $1$ tras el escalado lineal.
- Una variable enumerada, toma los días de la semana (lunes, martes, etc.) son representados por $v$ nodos de entrada, con $v$ siendo el número de resultados enurables, es decir $7$ para el número de días de la semana.
Esta representación de sus datos de entrada es necesaria para poder interpretar el tamaño (valor absoluto) de los pesos en la capa de entrada.
Significado paramétrico:
- cuanto más grande sea el valor absoluto del peso está entre una entrada neurona de entrada y una neurona oculta, más importante es esa variable, para el "disparo" de ese nodo oculto en particular. Los pesos cercanos a $0$ indican que un valor de entrada es tan bueno como irelevante.
- el peso de un nodo oculto a un nodo de salida indica que la ponderación amplificación ponderada de las variables de entrada que son en sentido absoluto más amplificada por esa neurona oculta, que promueven o amortiguan el nodo de salida particular. El signo del peso indica la promoción (positivo) o inhibición (negativo).
- La tercera parte no representada explícitamente en los parámetros de la red neuronal es la distribución multivariante de las variables de entrada. Es decir, cómo a menudo ocurre que el valor $1$ se proporciona al nodo de entrada $3$ - con los realmente grandes peso al nodo oculto $2$ ?
- un término de sesgo es sólo una constante de traslación que desplaza la media de una neurona oculta (o de salida). Actúa como el desplazamiento $\beta$ , presentado más arriba.
Razonamiento a partir de una neurona de salida ¿qué neuronas ocultas tienen los mayores valores de peso absoluto en sus conexiones con las neuronas de salida? Con qué frecuencia la activación de cada nodo oculto se acerca a $1$ (suponiendo funciones de activación sigmoideas). Hablo de frecuencias, medidas sobre el conjunto de entrenamiento. Para ser precisos: ¿cuál es la frecuencia con la que los nodos ocultos $i$ y $l$ con grandes pesos para las variables de entrada $t$ y $s$ que estos nodos ocultos $i$ y $l$ están cerca de $1$ ? Cada nodo oculto propaga una media ponderada de sus valores de entrada, por definición. ¿Qué variables de entrada promueve -o inhibe- principalmente cada nodo oculto? También las $\Delta_{j,k}=\mid w_{i,j} - w_{i,k}\mid$ explica mucho, la diferencia absoluta de pesos entre los pesos que se abren en abanico desde el nodo oculto $i$ a los dos nodos de salida $j$ y $k$ .
Cuanto más importantes son los nodos ocultos para un nodo de salida (hablando en frecuencias, sobre el conjunto de entrenamiento), ¿qué "pesos de entrada por frecuencias de entrada" son más importantes? Entonces nos acercamos a la importancia de los parámetros de las redes neuronales feed-forward.
Interpretación probabilística:
La perspectiva probabilística significa considerar una red neuronal de clasificación como un clasificador Bayes (el clasificador óptimo, con la tasa de error más baja definida teóricamente). ¿Qué variables de entrada influyen en el resultado de la red neuronal y con qué frecuencia? Considere esto como un análisis de sensibilidad probabilística. ¿Con qué frecuencia la variación de una variable de entrada puede conducir a una clasificación diferente? ¿Con qué frecuencia la neurona de entrada $x_{input}$ tienen influencia potencial en el que el resultado de la clasificación se convierte en el más probable, lo que implica que la neurona de salida correspondiente alcanza el valor más alto?
Caso individual - patrón
Al variar una neurona de entrada con número real $x_{input}$ puede hacer que la clasificación más probable cambie, decimos que esta variable tiene influencia potencial . Al variar el resultado de una variable enumerada (cambiar el día de la semana de lunes $[1,0,0,0,0,0,0]$ al martes $[0,1,0,0,0,0,0]$ o cualquier otro día de la semana), y el resultado más probable cambia, entonces esa variable enumerada tiene influencia potencial en el resultado de la clasificación.
Cuando ahora tenemos en cuenta la probabilidad de ese cambio, entonces hablamos influencia esperada . ¿Cuál es la probabilidad de observar una variable de entrada cambiante $x_{input}$ tal que a el caso de entrada cambia el resultado, dados los valores de todas las demás entradas ? La influencia esperada se refiere a valor esperado de $x_{input}$ , a saber $E(x_{input} \mid {\bf x}_{-input})$ . Aquí ${\bf x}_{-input}$ es el vector de todos los valores de entrada, excepto de la entrada $x_{input}$ . Hay que tener en cuenta que una variable enumerada está representada por un número de neuronas de entrada. Estos posibles resultados se consideran aquí como una variable.
La inclinación profunda - y el significado de los parámetros de la NN
Aplicadas a la visión por ordenador, las redes neuronales han mostrado un notable progreso en la última década. Las redes neuronales convolucionales introducidas por LeCunn en 1989 han resultado tener un rendimiento realmente bueno en términos de reconocimiento de imágenes. Se ha informado de que pueden superar a la mayoría de los demás enfoques de reconocimiento basados en ordenadores.
Cuando se entrenan redes neuronales convolucionales para el reconocimiento de objetos, aparecen interesantes propiedades emergentes. La primera capa de nodos ocultos representa detectores de características de bajo nivel, similares a los operadores de espacio de escala T. Lindeberg, Feature Detection with Automatic Scale Selection, 1998 . Estos operadores de espacio de escala detectan
- líneas,
- esquinas,
- Cruces en T
y algunas otras características básicas de la imagen.
Más interesante aún es el hecho de que se ha demostrado que las neuronas perceptivas del cerebro de los mamíferos se asemejan a esta forma de trabajar en los primeros pasos del procesamiento (biológico) de la imagen. Así que con las CNN, la comunidad científica se está acercando a lo que hace que la percepción humana sea tan fenomenal. Esto hace que merezca la pena seguir con esta línea de investigación.