5 votos

Computación redes neuronales gradientes

La siguiente nota "Computación en la Red Neuronal Degradados" explica cómo podemos tomar la derivada con respecto a la matriz y el vector. Tengo algunas preguntas:

La figura a continuación de la nota anterior muestra cuando tomamos la derivada con respecto al vector columna tenemos: $\frac{\partial(WX)}{\partial x} = W$ . Supongamos que W es $n \times m$ matriz y $x$ es m-dimensional vector.

============================================================= enter image description here

=============================================================

Mientras que en la imagen de abajo de la Wikipedia, tenemos $\frac{\partial(AX)}{\partial x} = A^T$(desde que tomamos la derivada con respecto al vector de columna, supongo que el denominador de diseño es el equivalente formato. )

================================================================ enter image description here

================================================================

Q1. No entiendo por qué en la nota se muestra el $W$ en lugar de $W^T$. ¿Alguien puede ayudar a explicar esto por favor?

Luego, En la última parte de la nota, el autor añadió :

Vemos que las dimensiones de todos los términos en el gradiente de partido (es decir, la número de columnas en un plazo igual al número de filas en el período siguiente). Este siempre será el caso si calculamos nuestra gradientes correctamente. Ahora podemos utilizar los términos de error para calcular nuestro gradientes. Tenga en cuenta que nosotros transposición de respuestas en el cómputo de los gradientes de vectores columna de los términos para seguir la forma de la convención.

Usted puede ver la imagen de abajo para más detalles.

============================================================= enter image description here

=============================================================

Q2 - Si siempre tomamos la derivada con respecto al vector de columna, ¿por qué necesitamos para transponer el resultado? Lugar de coincidencia dimensión como una forma de verificación ¿cómo puedo entender desde el principio cuando siento la necesidad de transponer el resultado a la hora de calcular la derivada usando la regla de la cadena?

Agradecería cualquier ayuda para entender esto. Gracias.

4voto

user153126 Puntos 1

Tenga en cuenta que $$\left(\frac{\partial \mathbf{z}}{\partial\mathbf{x}}\right)_{ij} = \frac{\partial z_i}{\partial x_j}$$ es el numerador de diseño, no denominador de diseño. Esto es debido a la "columna"-ness de $\mathbf{z}$ se conserva (por ejemplo, cuando se $\mathbf{z}$ es un vector columna, a continuación, $\frac{\partial\mathbf{z}}{\partial x_j}$ es un vector columna). También la $j$ indexación $x_j$'s corresponde a las filas de la matriz.

Así, la página de la wikipedia está de acuerdo en que debería ser $W$, no $W^T$.

En cuanto a tu segunda pregunta, las cosas ciertamente extrañas pasan en esas notas. Por lo que puedo decir, que inexplicablemente swap denominador de diseño para las matrices. La razón de ello es esencialmente arreglar "raro" cosa sobre el uso de numerador de diseño, tales como tomar la derivada de una constante con respecto a una matriz, es decir, $\frac{\partial a}{\partial \mathbf{W}}$ es una matriz cero con las dimensiones de la $\mathbf{W}^T$$\mathbf{W}$. La transposición es una mancha factor para compensar el intercambio entre estas anotaciones. Las notas hincapié en que si haces un seguimiento de las dimensiones, entonces las cosas deben coincidir, por ejemplo, si usted está esperando un vector columna pero computar una fila, luego de incorporar.

Mi opinión

Las notas son más confusas que vale la pena (a menos que usted está tomando la clase). Yo, personalmente, prefiero utilizar el tercer diseño de convenio mencionado en la página de la wikipedia, es decir, el numerador de diseño pero que escriba $\frac{\partial\mathbf{z}}{\partial \mathbf{x}^T}$. Esto es especialmente útil para matrices, como el formato de $\frac{\partial f(z)}{\partial \mathbf{W}^T}$ es evidente: $$\frac{\partial f(z)}{\partial \mathbf{W}^T} = \begin{bmatrix} \frac{\partial f}{\partial W_{11}} & \frac{\partial f}{\partial W_{21}} & \dotsb & \frac{\partial f}{\partial W_{m1}}\\ \frac{\partial f}{\partial W_{12}} & \frac{\partial f}{\partial W_{22}} & \dotsb & \frac{\partial f}{\partial W_{m2}}\\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f}{\partial W_{1n}} & \frac{\partial f}{\partial W_{2n}} & \dotsb & \frac{\partial f}{\partial W_{mn}}\\ \end{bmatrix}$$

Hagas lo que hagas, sea consistente. Por alguna razón esas notas defensor de todo lo contrario.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X