Buena pregunta: ten en cuenta que en el campo del Deep Learning las cosas no siempre están tan bien cortadas y claramente definidas como en el Aprendizaje Estadístico (también porque hay mucho hype), así que no esperes encontrar definiciones tan rigurosas como en Matemáticas. De todos modos, el perceptrón multicapa es una arquitectura específica de red neuronal de avance, en la que se apilan múltiples capas totalmente conectadas (por tanto, no hay capas de convolución), donde las funciones de activación de las unidades ocultas suelen ser una sigmoide o una tanh. Los nodos de la capa de salida suelen tener funciones de activación softmax (para la clasificación) o lineales (para la regresión). Las arquitecturas MLP típicas no son "profundas", es decir, no tenemos muchas capas ocultas. Suelen tener, por ejemplo, de 1 a 5 capas ocultas. Estas redes neuronales eran comunes en los años 80, y se entrenan por retropropagación.
Ahora bien, con Red Neuronal Profunda nos referimos a una red que tiene muchas capas (19, 22, 152,...incluso > 1200 Aunque hay que reconocer que eso es muy extremo). Tenga en cuenta que
- no hemos especificado la arquitectura de la red, por lo que podría ser feed-forward, recurrente, etc.
- no hemos especificado la naturaleza de las conexiones, por lo que podríamos tener capas totalmente conectadas, capas convolucionales, de recurrencia, etc.
- "muchas" capas, hay que reconocerlo, es no una definición rigurosa.
Entonces, ¿por qué sigue teniendo sentido hablar de DNNs (aparte de por razones de hype)? Porque cuando empiezas a apilar más y más capas, en realidad necesitas utilizar nuevas técnicas (nuevas funciones de activación, nuevos tipos de capas, nuevas estrategias de optimización... incluso nuevo hardware) para poder 1) entrenar tu modelo y 2) hacer que generalice en nuevos casos. Por ejemplo, supongamos que tomamos un MLP clásico para clasificación de 10 clases, funciones de activación tanh, capas de entrada y oculta con 32 unidades cada una y capa de salida con 10 unidades softmax $\Rightarrow 32\times32+32\times10 = 1344$ pesos. Se añaden 10 capas $\Rightarrow 11584$ pesos. Se trata de una NN minúscula para los estándares actuales. Sin embargo, cuando se entrena con un conjunto de datos suficientemente grande, se comprueba que la velocidad de convergencia se ha ralentizado enormemente. Esto no sólo se debe al mayor número de pesos, sino a la problema del gradiente de fuga - La retropropagación calcula el gradiente de la función de pérdida multiplicando los errores a través de cada capa, y estos pequeños números se vuelven exponencialmente más pequeños cuantas más capas se añaden. Por lo tanto, los errores no se propagan (o se propagan muy lentamente) por la red, y parece que el error en el conjunto de entrenamiento deja de disminuir con las épocas de entrenamiento.
Y ésta era una red pequeña: la red neuronal convolucional profunda llamada AlexNet tenía 5 capas pero 60 millones de pesos, ¡y se considera pequeña para los estándares actuales! Cuando tienes tantos pesos, cualquier conjunto de datos es "pequeño" - incluso ImageNet, un conjunto de datos de imágenes utilizado para la clasificación, tiene "sólo" alrededor de 1 millón de imágenes, por lo que el riesgo de sobreajuste es mucho mayor que para una red superficial.
Así, el aprendizaje profundo puede entenderse como el conjunto de herramientas que se utilizan en la práctica para entrenar redes neuronales con un gran número de capas y pesos, consiguiendo un bajo error de generalización. Esta tarea plantea más desafíos que para las redes más pequeñas. Definitivamente puedes construir un Perceptrón Multicapa Profundo y entrenarlo - pero (aparte del hecho de que no es la arquitectura óptima para muchas tareas en las que se utiliza el Aprendizaje Profundo hoy en día) probablemente utilizarás herramientas que son diferentes de las que se utilizaban cuando las redes solían ser "poco profundas". Por ejemplo, es posible que prefieras las unidades de activación ReLU a las sigmoides o tanh, porque suavizan el problema del gradiente de fuga.