Creo que no hay una respuesta definitiva a sus preguntas. Pero creo que la sabiduría convencional va de la siguiente manera:
Básicamente, como el espacio de hipótesis de un algoritmo de aprendizaje crece, el algoritmo puede aprender más ricos y estructuras. Pero, al mismo tiempo, el algoritmo se vuelve más propenso a sobreajuste y su generalización error es probable que aumente.
Así que en definitiva, para cualquier conjunto de datos, es recomendable trabajar con el modelo mínimo que tiene la capacidad suficiente para aprender la estructura real de los datos. Pero esta es una muy de la mano-ondulado asesoramiento, ya que normalmente el "real de la estructura de los datos" es desconocido, y a menudo incluso las capacidades de los modelos candidatos son sólo vagamente conocidos.
Cuando se trata de redes neuronales, el tamaño de la hipótesis de que el espacio es controlado por el número de parámetros. Y parece que para un número fijo de parámetros (o fijo de una orden de magnitud), de ir más profundo permite que los modelos para capturar más ricos estructuras (por ejemplo, este documento).
Esto puede explicar en parte el éxito de la más profunda modelos con menos parámetros: VGGNet (desde 2014) tiene 16 capas con ~140M parámetros, mientras que ResNet (a partir de 2015) batir con 152 capas, pero sólo ~2M parámetros
(como un lado, los modelos más pequeños pueden ser computacionalmente más fácil entrenar - pero yo no creo que sea un factor importante por sí mismo, debido a que la profundidad de hecho complica la formación)
Tenga en cuenta que esta tendencia (más de profundidad, menos parámetros) está presente sobre todo en la visión relacionados con las tareas y convolucional redes, y esto requiere de un dominio específico de la explicación. Así que aquí está otra perspectiva:
Cada "neurona" en un convolucional capa tiene un "campo receptivo", que es el tamaño y la forma de las entradas que los efectos de cada salida. Intuitivamente, cada núcleo captura de algún tipo de relación entre los insumos. Y los pequeños núcleos (que son comunes y preferible) tiene un pequeño campo receptivo, por lo que pueden proporcionar información sólo acerca de las relaciones locales.
Pero cuanto más profundo, el campo receptivo de cada neurona con respecto a algunos de los primeros de la capa se vuelve más grande. Así las capas profundas, puede proporcionar características globales de significado semántico y el resumen de los detalles (las relaciones de las relaciones ... de las relaciones de los objetos), mientras que el uso de sólo los pequeños núcleos (que regularizar las relaciones de la red aprende, y ayuda a que convergen y generalizar).
Por lo que la utilidad de profunda convolucional redes en la visión por ordenador puede ser parcialmente explicada por la estructura espacial de las imágenes y los vídeos. Es posible que el tiempo dirá que para los diferentes tipos de problemas, o para no convolucional arquitecturas, la profundidad en realidad no funciona bien.