4 votos

Visualización del espacio de pesos de alta dimensión para los perceptrones

Estoy viendo los vídeos de redes neuronales del profesor Geoff Hinton. En ellos habla de una red de alta dimensión Weight Space para los perceptrones.

En particular, me refiero a las siguientes dos diapositivas. También aquí hay un enlace al video de youtube con marca de tiempo donde él describe esto weight space : https://youtu.be/0T57_yjjB58?list=PLoRl3Ht4JOcdU872GhiYWf6jwrk_SNhz9&t=80

enter image description here

enter image description here

Preguntas:

  1. ¿Por qué el maletín de entrenamiento es un avión? ¿Por qué el avión pasa por el origen?
  2. ¿Por qué el vector de entrada es perpendicular a este plano?
  3. ¿En qué se diferencia el vector de entrada del caso de entrenamiento?

3voto

suraj Puntos 1

Como probablemente sepas, un vector en un $D$ -El espacio de dimensiones puede ser descrito por una dirección y una magnitud. La dirección requiere $D-1$ valores para describir, y la magnitud requiere un valor para describir.

Supongamos que elegimos algún vector unitario direccional $\hat{v}.$ Por "vector unitario" entiendo que tiene magnitud uno. Un vector $z$ que satisface $z \cdot \hat{v} = \sum_j z_j \hat{v}_j = 0$ es perpendicular al vector direccional. El conjunto de todos los vectores que pueden ser perpendiculares a $\hat{v}$ forma un $D-1$ hiperplano dimensional que pasa por el origen. Esto es fácil de ver, porque la restricción de que sea perpendicular a $\hat{v}$ es realmente la ecuación de un $D-1$ plano dimensional en $D$ dimensiones, es decir $$\sum_{j=1}^D \hat{v}_j z_j = 0.$$ Se trata de una combinación lineal de los componentes de $z$ con una intercepción cero. Presenta un comportamiento similar al del plano porque, si se reduce el valor de un componente de $z$ en una cantidad determinada, debe aumentar los valores de otros componentes de forma lineal, de modo que la suma siga llegando a cero.

Cualquier vector de entrada $x$ en un perceptrón puede expresarse como $$x = r \hat{v}$$ donde $r \in \mathbb{R}$ es una magnitud, y $\hat{v} \in \mathbb{R}^D$ es un vector direccional que satisface $|\hat{v}|=1.$ De hecho, el perceptrón sólo se preocupa por la dirección $\hat{v}$ , no la magnitud $r$ . Para ver esto, mira el procedimiento de clasificación de un perceptrón: $$ f(x;w) = \left\{ \begin{split} 1 \hspace{1mm} \text{if} \hspace{1mm} x \cdot w >0 \\ 0 \hspace{1mm} \text{if} \hspace{1mm} x \cdot w \le 0 \end{split} \right. $$ donde $w$ es el vector de pesos del perceptrón y estoy incluyendo implícitamente el componente de sesgo constante a $x.$ Es fácil ver que las condiciones anteriores para $x \cdot w$ se aplican igualmente a $\hat{v} \cdot w.$ De este modo, se puede sustituir $x$ con $\hat{v}$ en la condición anterior y la función del perceptrón no cambia.

Como hemos establecido, un avión en $w$ -puede definirse mediante la ecuación $\hat{v} \cdot w = 0.$ Así, para responder a tu pregunta, es como un vector de entrada puede ser representado por un plano. Para ser más precisos, una entrada dirección define el plano, pero el plano es invariable a la magnitud del vector. (La ecuación de un plano es idéntica si se multiplica todo por una constante). Así que falta una información sobre el plano, con respecto al vector. Sin embargo, como hemos establecido, el algoritmo del perceptrón no se preocupa por la magnitud del vector, así que a todos los efectos, el plano describe el vector por completo, con todo el detalle que nos importa.

Si nuestro valor de $w$ cae en o por debajo del plano definido por una dirección de entrada $\hat{v}$ (donde por "debajo" quiero decir en el lado opuesto del plano que $\hat{v}$ ) entonces el perceptrón clasifica esta entrada como un "cero", de lo contrario la clasifica como un "uno". Para ver por qué es así, sólo tenemos que aprovechar un resultado muy elemental del álgebra lineal, a saber, que $$ |w \cdot \hat{v}| = |w| |\hat{v}| \cos \theta = |w| \cos \theta, $$ donde $\theta$ es el ángulo entre $w$ y $\hat{v}$ (es decir, el ángulo entre $w$ y $x$ ). La condición del perceptrón se convierte entonces en que el punto se clasifica como "uno" si $\theta < \pi/2$ y un "cero" si $\pi/2 \le \theta \le \pi.$

(Para responder a tu pregunta 3, no son diferentes. El vector de entrada es el caso de entrenamiento).

0 votos

Gracias por esta brillante respuesta. Tengo un par de preguntas: 1) Creo que $\hat{v}.w = 0$ es el caso de la formación (y por eso un avión) y $\hat{v}$ es el vector de entrada que es perpendicular a este plano de entrenamiento. ¿Correcto? 2) Dices que "muestra un comportamiento similar al de un plano porque se suma a cero", ¿es así como defines matemáticamente los planos? ¿O a qué te refieres exactamente con "comportamiento similar a un plano"?

0 votos

Además, ¿por qué la dirección requiere $D-1$ dimensiones y la magnitud del resto de 1? Para un vector $<a,b>$ tanto la dirección como la magnitud se definirán mediante $a$ y $b$ . ¿No es así?

0 votos

Otra pregunta: ¿Por qué el caso de la formación $\hat{v}.w = 0$ . es decir, por qué se equipara a $0$ ? ¿Qué parte de la definición de perceptrón nos hizo equiparar esto a $0$ y no a algún otro valor como $1$ ?

1voto

Mr D0D5 Puntos 11

Una forma de convencerse de que la dirección sólo requiere $$D-1$$ es decir, coordenadas esféricas en el espacio 3. Un punto es la 3-tupla $$(r,\theta,\phi)$$ pero sólo necesitamos el theta y el phi para saber la dirección.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X