Entender por qué el aprendizaje profundo y barato funciona tan bien. Documento de Max Tegmark

Question

Entender por qué el aprendizaje profundo y barato funciona tan bien. Documento de Max Tegmark

Preguntado el 6 de Noviembre, 2016: Cuando se hizo la pregunta
589 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy leyendo un artículo de Henry Lin y Max Tegmark titulado por qué el aprendizaje profundo y barato funciona tan bien.

En la cuarta página del artículo muestran que es posible crear una red neuronal que represente arbitrariamente bien la multiplicación de dos números con una sola capa oculta de dimensión 4 y entrada de tamaño 2. Me resulta difícil replicar los resultados.

A partir de la imagen que proporciona para la puerta de multiplicación parece que tiene pesos iguales en todos los nodos sólo alternando los signos. Debido a esta igualdad de pesos y la alternancia de signos la salida siempre sería 0. Así que claramente me estoy perdiendo algo.

El punto que quizás se me escapa es que la red neuronal toma la forma f = A2*sigma*A1 donde las As son transformaciones Affine con un sesgo adicional de la forma Ay = Wy + b.

En la ecuación 10,11 del documento es donde hacen sus conclusiones. Teorema: Sea f una red neuronal de la forma $\ f = A_2*\sigma*A_1 $

Ecuación 10 $$\ \sigma(u) \approx \sigma_0 + \sigma_1*u + \sigma_2*u^2/2 + O(u^3) $$

Dicen que 10 implica entonces

$\ m(u,v) = (\sigma(u + v) + \sigma(-u - v) - \sigma(u - v) - \sigma(-u + v))/4\sigma_2 = uv*(1 + O(u^2 + v^2)) $

No obtengo los mismos resultados cuando intento utilizar la expansión de la serie taylor. He probado a utilizar $ \lambda = 1 $ y eso me ha dado el resultado más cercano de $\ m(u,v) = 4*u*v*\mu + O((u - v)^3) $

Cualquier idea sobre la dirección correcta a tomar o tal vez cualquier lugar donde el papel se explica un poco más explícitamente sería muy apreciado. Gracias.

Enlace al documento Documento de Max Tegmark

Preguntado el 6 de Noviembre, 2016 por shiin

2 votos

¿Puede pegar la(s) sección(es) y la imagen en cuestión? No queremos que alguien tenga que leer el documento sólo para responder a su pregunta. ¿Puede proporcionar una cita completa, en caso de que el enlace no funcione?

Comentado el 6 de Noviembre, 2016 por Sean Hanley

0 votos

@gung gracias gung he intentado dejar más claro lo que pregunto.

Comentado el 8 de Noviembre, 2016 por shiin

Answer 1

1 Respuestas

Answer 2

1voto

Kostas Puntos 111

La respuesta se da en las ecuaciones 10 y 11 del documento enlazado. Básicamente se toma la expansión de Taylor de $\sigma(x)\approx\sigma_0+\sigma_1x+\frac{\sigma_2x^2}{2}$ y lo introducimos en la ecuación formada por la red neuronal mostrada en la figura, para $\lambda=1$ : $\frac{\sigma(u+v)+\sigma(-u-v)-\sigma(u-v)-\sigma(-u+v)}{4\sigma_2}$ y se obtiene la multiplicación deseada $uv$ . La expansión de Taylor sólo es válida para parámetros pequeños, por lo que hay que escalarlos adecuadamente eligiendo un $\lambda$ (en el periódico dicen que se necesita un gran $\lambda$ Así que puede que se me escape algo, pero ya te haces una idea).

Respondido el 8 de Noviembre, 2016 por Kostas (111 Puntos )

0 votos

Gracias por la respuesta. He intentado resolver utilizando la expansión de taylor con $\lambda=1$ y terminé con el resultado $\ m(u,v) = 4*u*v*\mu + O((u-v)^3)$ que está cerca pero no es lo que tienen. No parece que utilicen $\lambda=1$ también. Todavía parece que me falta algo probablemente obvio

Comentado el 8 de Noviembre, 2016 por shiin

0 votos

Pero mu también es un parámetro libre, así que si eliges $\mu$ para ser 1/4, usted está allí, ¿correcto?

Comentado el 9 de Noviembre, 2016 por Kostas

0 votos

Cerca terminan con $\ u*v*(1 + O(u^2 + v^2)) $ Debería haberlo incluido antes. He editado mi pregunta para incluirlo ahora

Comentado el 9 de Noviembre, 2016 por shiin

Entender por qué el aprendizaje profundo y barato funciona tan bien. Documento de Max Tegmark

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Entender por qué el aprendizaje profundo y barato funciona tan bien. Documento de Max Tegmark

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: