Buena respuesta hasta el momento, aunque hay un par de cosas que nadie de por aquí mencionados, aquí está mi 0.02$
Solo voy a responder en la forma de una historia, debe hacer las cosas más divertidas y claras. No tldr aquí. En el proceso usted debe ser capaz de entender cuál es la diferencia.
Hay varias razones de por qué DNNs desataron cuando lo hicieron (estrellas tuvo que alinear, como todas las cosas similares, es sólo la cuestión de lugar correcto, en el momento justo, etc).
Una razón es la disponibilidad de datos, muchos datos (datos etiquetados). Si usted quiere ser capaz de generalizar y aprender algo como "genéricos priores' o 'universal de los priores' (también conocido como los bloques de construcción básicos que pueden ser re-utilizados entre tareas / aplicaciones), entonces usted necesita una gran cantidad de datos. Y salvaje de datos, podría yo agregar, no estéril conjuntos de datos registradas cuidadosamente en el laboratorio para el control de la iluminación y de todos. Mechanical Turk hecho de que (etiquetado).
Segundo, la posibilidad de formar redes más grandes más rápido el uso de las Gpu hecho de la experimentación más rápido. ReLU unidades cosas computacionalmente más rápida y proporcionada para su regularización, ya que usted necesita para utilizar más unidades en una sola capa para que sea capaz de comprimir la misma información desde capas que ahora estaban más dispersos, por lo que también fue agradable con la deserción escolar. También, ellos me ayudaron con un problema importante, que ocurre cuando la pila de capas múltiples. Más sobre esto más adelante.
Varios varios trucos que mejorar el rendimiento. Como el uso de mini-lotes (que en realidad es perjudicial para la final de error) o circunvoluciones (que en realidad no capturar tanto la varianza como local de los campos receptivos) pero son computacionalmente más rápido.
Mientras tanto la gente se debate si les gustó em más flaco o más gordito, más pequeños o más, con o sin pecas, etc. La optimización se como lo hace fizz o explosión de forma que la investigación se estaba moviendo hacia métodos más complejos de la formación como de gradiente conjugado y el método de newton, finalmente todos se dieron cuenta que no hay almuerzo gratis. Las redes de eructos.
Lo que frenó las cosas fue el desvanecimiento de degradado problema.
La gente se fue como: whoa, eso no es nada, hombre! En pocas palabras, esto significa que es difícil para ajustar el error en las capas más cerca de las entradas. A medida que agrega más capas del pastel, se vuelve demasiado inestable. No se podía volver-propagar significativo error de nuevo a la primera de las capas. El más capas, la peor que tiene. Bummer.
Algunas personas descubierto que el uso de la cruz-la entropía como función de pérdida (bueno, de nuevo, clasificación y reconocimiento de imagen) proporciona algún tipo de regularización y ayuda contra la red de llegar saturado y a su vez el gradiente no era capaz de ocultar que bien.
Lo que también hizo las cosas más posible era la por-capa de pre-entrenamiento en el uso no supervisado de los métodos. Básicamente, se toma un grupo de auto-codificadores y aprender cada vez menos representaciones abstractas como aumentar la relación de compresión. Los pesos de estas redes se utiliza para inicializar el supervisado versión. Ya esta resuelto el desvanecimiento de degradado problema de otra manera: ya estás empezando entrenamiento supervisado de una mucho mejor posición de inicio. Así que todas las otras redes se levantó y comenzó a rebelarse.
Pero las redes necesitan de la supervisión de todos modos, de lo contrario era imposible mantener el big data todavía.
Ahora, para la última parte que, finalmente, de ordenación de las riendas a su respuesta, que es demasiado complejo para poner en pocas palabras: ¿por qué más capas y no sólo uno. Porque podemos! y porque el contexto y invariante en función de los descriptores. y piscinas.
He aquí un ejemplo: usted tiene un conjunto de datos de imágenes, ¿cómo vas a
entrenar a un plan de NN uso de los datos? Así, ingenuamente, que tome digamos que cada fila y concatenar en una larga vector y que su entrada. ¿Qué se aprende? Bueno, algunos aproximada tonterías funciones que podría parecer que no es nada, porque de los muchos tipos de desviaciones que los objetos en la imagen contener y que no son capaces de distinguir entre lo relevante y la irrelevante cosas. Y en algún punto de la red necesita para olvidar a ser capaz de volver a aprender cosas nuevas. Así que no hay el problema de la capacidad. Esto es más dinámica no lineal, pero la intuición es que usted necesita para aumentar el número de neuronas para ser capaz de incluir más información en la red.
Así que el punto es que si usted acaba de entrada de la imagen como una sola pieza, añadiendo más capas de no hacer demasiado para usted, ya que usted no está en condiciones de aprender las abstracciones, que es muy importante. Hacer las cosas de manera integral por lo tanto no funciona bien, a menos que usted está haciendo cosas más simples con la red como enfocarse en un tipo específico de objeto, de modo que se limite a una clase y que escoja en algunas propiedades globales de clasificación meta.
Así que lo que hay que hacer? Mira en el borde de la pantalla y tratar de leer este texto. Problema? Tan estúpido como suena, usted necesita mirar lo que está leyendo. De lo contrario, es demasiado confuso / no hay suficiente de la resolución o de granularidad. Vamos a llamar a la zona de enfoque del campo receptivo. Las redes deben ser capaces de concentrarse demasiado. Básicamente, en lugar de utilizar la totalidad de la imagen como entrada, mover una ventana deslizante a lo largo de la imagen y, a continuación, utilizar como entrada a la red (un poco menos estocástico que lo hacen los humanos). Ahora usted también tiene la oportunidad de capturar las correlaciones entre los píxeles y, por tanto, los objetos y también se puede distinguir entre sueño gato sentado en un sofá y un revés gato salto en bungee. Limpio, la fe en la humanidad restaurada. La red puede aprender local abstracciones en una imagen en varios niveles. La red aprende filtros, inicialmente simples y, a continuación, se acumula en los que aprender filtros más complejos.
Así que, para resumir la situación: los campos receptivos / circunvoluciones, sin supervisión de inicialización, rectificado unidades lineales, de omisión o de otros métodos de regularización. Si usted es muy serio acerca de esto te recomiendo que eche un vistazo a Schmidhuber de la Profundidad de Aprendizaje en Redes Neuronales: Una Visión general aquí está la url para el preprint http://arxiv.org/abs/1404.7828
Y recuerde: aprendizaje, en lo profundo de los datos. Palabra.