20 votos

¿qué hace que las redes neuronales sean un modelo de clasificación no lineal?

Intento comprender el significado matemático de los modelos de clasificación no lineales:

Acabo de leer un artículo que habla de las redes neuronales como un modelo de clasificación no lineal.

Pero me acabo de dar cuenta:

enter image description here

La primera capa:

$h_1=x_1w_{x1h1}+x_2w_{x1h2}$

$h_2=x_1w_{x2h1}+x_2w_{x2h2}$

La capa siguiente

$y=bw_{by}+h_1w_{h1y}+h_2w_{h2y}$

Puede simplificarse en

$=b+(x_1w_{x1h1}+x_2w_{x1h2})w_{h1y}+(x_1w_{x2h1}+x_2w_{x2h2})w_{h2y} $

$=b+x_1(w_{h1y}w_{x1h1}+w_{x2h1}w_{h2y})+x_2(w_{h1y}w_{x1h1}+w_{x2h2}w_{h2y}) $

Una red neuronal de dos capas no es más que una simple regresión lineal

$=b^+x_1W_1^+x_2W_2^$

Esto puede demostrarse para cualquier número de capas, ya que la combinación lineal de cualquier número de pesos es de nuevo lineal.

¿Qué hace que una red neuronal sea un modelo de clasificación no lineal?
¿Cómo influirá la función de activación en la no linealidad del modelo?
¿Puede explicármelo?

20voto

David Puntos 41

Creo que olvidas el función de activación en los nodos de la red neuronal, que es no lineal y hará que todo el modelo sea no lineal.

En su fórmula no es del todo correcto, donde,

$$ h_1 \neq w_1x_1+w_2x_2 $$

pero

$$ h_1 = \text{sigmoid}(w_1x_1+w_2x_2) $$

donde la función sigmoidea así, $\text{sigmoid}(x)=\frac 1 {1+e^{-x}}$

enter image description here

Utilicemos un ejemplo numérico para explicar el impacto de la función sigmoidea, supongamos que tenemos $w_1x_1+w_2x_2=4$ entonces $\text{sigmoid}(4)=0.99$ . Por otro lado, supongamos que tiene $w_1x_1+w_2x_2=4000$ , $\text{sigmoid}(4000)=1$ y es casi igual que $\text{sigmoid}(4)$ que no es lineal.


Además, creo que la diapositiva 14 en este tutorial puede mostrar dónde se equivocó exactamente. Para $H_1$ por favor no el otuput no es -7.65, pero $\text{sigmoid}(-7.65)$

enter image description here

4voto

throwaway Puntos 18

Tienes razón en que varias capas lineales pueden equivaler a una sola capa lineal. Como han dicho las demás respuestas, una función de activación no lineal permite una clasificación no lineal. Decir que un clasificador es no lineal significa que tiene un límite de decisión no lineal. El límite de decisión es una superficie que separa las clases; el clasificador predecirá una clase para todos los puntos situados a un lado del límite de decisión, y otra clase para todos los puntos situados al otro lado.

Consideremos una situación habitual: realizar una clasificación binaria con una red que contenga varias capas de unidades ocultas no lineales y una unidad de salida con una función de activación sigmoidal. $y$ da el resultado, $h$ es un vector de activaciones para la última capa oculta, $w$ es un vector de sus pesos sobre la unidad de salida, y $b$ es el sesgo de la unidad de salida. La salida es:

$$y = \sigma(hw + b)$$

donde $\sigma$ es la función sigmoidea logística. La salida se interpreta como la probabilidad de que la clase sea $1$ . La clase prevista $c$ es:

$$c = \left \{ \begin{array}{cl} 0 & y \le 0.5 \\ 1 & y > 0.5 \\ \end{array} \right . $$

Consideremos la regla de clasificación con respecto a las activaciones de las unidades ocultas. Podemos ver que las activaciones de las unidades ocultas se proyectan sobre una línea $hW + b$ . La regla para asignar una clase es función de $y$ que está monotónicamente relacionada con la proyección a lo largo de la línea. Por tanto, la regla de clasificación equivale a determinar si la proyección a lo largo de la línea es menor o mayor que algún umbral (en este caso, el umbral viene dado por el negativo del sesgo). Esto significa que el límite de decisión es un hiperplano ortogonal a la recta que la interseca en un punto correspondiente a ese umbral.

Antes he dicho que el límite de decisión no es lineal, pero un hiperplano es la definición misma de un límite lineal. Pero, hemos estado considerando el límite como una función de las unidades ocultas justo antes de la salida. Las activaciones de las unidades ocultas son una función no lineal de las entradas originales, debido a las capas ocultas anteriores y a sus funciones de activación no lineales. Una forma de entender la red es que mapea los datos de forma no lineal en un espacio de características. Las coordenadas en este espacio vienen dadas por las activaciones de las últimas unidades ocultas. A continuación, la red realiza una clasificación lineal en este espacio (regresión logística, en este caso). También podemos pensar en el límite de decisión como una función de las entradas originales. Esta función será no lineal, como consecuencia de la correspondencia no lineal entre las entradas y las activaciones de las unidades ocultas.

Este entrada del blog muestra algunas bonitas figuras y animaciones de este proceso.

1voto

smartappers Puntos 11

La no linealidad proviene de la función de activación sigmoidea, 1/(1+e^x), donde x es la combinación lineal de predictores y pesos a la que hace referencia en su pregunta.

Por cierto, los límites de esta activación son cero y uno porque o bien el denominador se hace tan grande que la fracción se aproxima a cero, o bien e^x se hace tan pequeño que la fracción se aproxima a 1/1.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X