Similitud
Fundamentalmente, ambos tipos de algoritmos se desarrollaron para responder a una pregunta general en aplicaciones de aprendizaje automático:
Dados los predictores (factores) $x_1, x_2, \ldots, x_p$ - ¿Cómo incorporar las interacciones entre estos factores para aumentar el rendimiento?
Una forma es simplemente introducir nuevos predictores: $x_{p+1} = x_1x_2, x_{p+2} = x_1x_3, \ldots$ Pero esto resulta ser una mala idea debido al enorme número de parámetros y al tipo muy específico de interacciones.
Tanto la modelización multinivel como los algoritmos de Deep Learning responden a esta cuestión introduciendo un modelo de interacciones mucho más inteligente. Y desde este punto de vista son muy similares.
Diferencia
Ahora permítanme que intente dar mi opinión sobre cuál es la gran diferencia conceptual entre ellos. Para dar alguna explicación, veamos los supuestos que hacemos en cada uno de los modelos:
Modelización multinivel: $^1$ Las capas que reflejan la estructura de datos pueden representarse como un Red jerárquica bayesiana . Esta red es fija y suele proceder de aplicaciones de dominio.
Aprendizaje profundo: $^2$ los datos fueron generados por las interacciones de muchos factores. La estructura de las interacciones no se conoce, pero puede representarse como una factorización en capas: las interacciones de nivel superior se obtienen transformando las representaciones de nivel inferior.
La diferencia fundamental viene de la frase "la estructura de las interacciones no se conoce" en el aprendizaje profundo. Podemos asumir algunos priores sobre el tipo de interacción, pero sin embargo el algoritmo define todas las interacciones durante el procedimiento de aprendizaje. Por otro lado, tenemos que definir la estructura de las interacciones para el modelado multinivel (sólo aprendemos a variar los parámetros del modelo después).
Ejemplos
Por ejemplo, supongamos que nos dan tres factores $x_1, x_2, x_3$ y definimos $\{x_1\}$ y $\{x_2, x_3\}$ como capas diferentes.
En la regresión del modelo multinivel, por ejemplo, obtendremos las interacciones $x_1 x_2$ y $x_1 x_3$ pero nunca conseguiremos la interacción $x_2 x_3$ . Por supuesto, en parte los resultados se verán afectados por la correlación de los errores, pero esto no es tan importante para el ejemplo.
En el aprendizaje profundo, por ejemplo en las máquinas de Boltzmann restringidas multicapa ( RBM ) con dos capas ocultas y función de activación lineal, tendremos todas las interacciones polinómicas posibles con el grado menor o igual a tres.
Ventajas y desventajas comunes
Modelización multinivel
(-) necesidad de definir la estructura de las interacciones
(+) los resultados suelen ser más fáciles de interpretar
(+) puede aplicar métodos estadísticos (evaluar los intervalos de confianza, comprobar las hipótesis)
Aprendizaje profundo
(-) requiere una gran cantidad de datos para entrenar (y también tiempo para el entrenamiento)
(-) los resultados suelen ser imposibles de interpretar (se ofrecen como una caja negra)
(+) no se requieren conocimientos especializados
(+) una vez que está bien entrenado, suele superar a la mayoría de los otros métodos generales (no específicos de la aplicación)
Espero que le sirva de ayuda.