34 votos

¿Cuál es la diferencia entre el "aprendizaje profundo" y el modelado multinivel/jerárquico?

¿Es el "aprendizaje profundo" otro término para el modelado multinivel/jerárquico?

Estoy mucho más familiarizado con las segundas que con las primeras, pero por lo que veo, la principal diferencia no está en su definición, sino en cómo se utilizan y evalúan dentro de su ámbito de aplicación.

Parece que el número de nodos en una aplicación típica de "aprendizaje profundo" es mayor y utiliza una forma jerárquica genérica, mientras que las aplicaciones de modelado multinivel suelen utilizar unas relaciones jerárquicas que imitan el proceso generativo que se está modelando. Utilizar una jerarquía genérica en un dominio de estadística aplicada (modelado jerárquico) se consideraría un modelo "incorrecto" de los fenómenos, mientras que modelar una jerarquía específica del dominio podría considerarse como subvertir el objetivo de hacer una máquina genérica de aprendizaje profundo.

¿Se trata realmente de la misma maquinaria con dos nombres diferentes, utilizada de dos maneras distintas?

40voto

Dmitry Laptev Puntos 1846

Similitud

Fundamentalmente, ambos tipos de algoritmos se desarrollaron para responder a una pregunta general en aplicaciones de aprendizaje automático:

Dados los predictores (factores) $x_1, x_2, \ldots, x_p$ - ¿Cómo incorporar las interacciones entre estos factores para aumentar el rendimiento?

Una forma es simplemente introducir nuevos predictores: $x_{p+1} = x_1x_2, x_{p+2} = x_1x_3, \ldots$ Pero esto resulta ser una mala idea debido al enorme número de parámetros y al tipo muy específico de interacciones.

Tanto la modelización multinivel como los algoritmos de Deep Learning responden a esta cuestión introduciendo un modelo de interacciones mucho más inteligente. Y desde este punto de vista son muy similares.

Diferencia

Ahora permítanme que intente dar mi opinión sobre cuál es la gran diferencia conceptual entre ellos. Para dar alguna explicación, veamos los supuestos que hacemos en cada uno de los modelos:

Modelización multinivel: $^1$ Las capas que reflejan la estructura de datos pueden representarse como un Red jerárquica bayesiana . Esta red es fija y suele proceder de aplicaciones de dominio.

Aprendizaje profundo: $^2$ los datos fueron generados por las interacciones de muchos factores. La estructura de las interacciones no se conoce, pero puede representarse como una factorización en capas: las interacciones de nivel superior se obtienen transformando las representaciones de nivel inferior.

La diferencia fundamental viene de la frase "la estructura de las interacciones no se conoce" en el aprendizaje profundo. Podemos asumir algunos priores sobre el tipo de interacción, pero sin embargo el algoritmo define todas las interacciones durante el procedimiento de aprendizaje. Por otro lado, tenemos que definir la estructura de las interacciones para el modelado multinivel (sólo aprendemos a variar los parámetros del modelo después).

Ejemplos

Por ejemplo, supongamos que nos dan tres factores $x_1, x_2, x_3$ y definimos $\{x_1\}$ y $\{x_2, x_3\}$ como capas diferentes.

En la regresión del modelo multinivel, por ejemplo, obtendremos las interacciones $x_1 x_2$ y $x_1 x_3$ pero nunca conseguiremos la interacción $x_2 x_3$ . Por supuesto, en parte los resultados se verán afectados por la correlación de los errores, pero esto no es tan importante para el ejemplo.

En el aprendizaje profundo, por ejemplo en las máquinas de Boltzmann restringidas multicapa ( RBM ) con dos capas ocultas y función de activación lineal, tendremos todas las interacciones polinómicas posibles con el grado menor o igual a tres.

Ventajas y desventajas comunes

Modelización multinivel

(-) necesidad de definir la estructura de las interacciones

(+) los resultados suelen ser más fáciles de interpretar

(+) puede aplicar métodos estadísticos (evaluar los intervalos de confianza, comprobar las hipótesis)

Aprendizaje profundo

(-) requiere una gran cantidad de datos para entrenar (y también tiempo para el entrenamiento)

(-) los resultados suelen ser imposibles de interpretar (se ofrecen como una caja negra)

(+) no se requieren conocimientos especializados

(+) una vez que está bien entrenado, suele superar a la mayoría de los otros métodos generales (no específicos de la aplicación)

Espero que le sirva de ayuda.

4voto

nedlud Puntos 178

Aunque esta pregunta/respuesta lleva ya un tiempo en el mercado, he pensado que podría ser útil aclarar algunos puntos de la respuesta. En primer lugar, la frase planteada como distinción principal entre los métodos jerárquicos y las redes neuronales profundas "Esta red es fija" es incorrecta. Los métodos jerárquicos no son más "fijos" que la alternativa, las redes neuronales. Véase, por ejemplo, el artículo Aprendizaje profundo con análisis convolucional jerárquico de factores, Chen et. al. . Creo que también encontrará que el requisito de definir las interacciones ya no es un punto distintivo. Un par de puntos que no aparecen en la lista de ventajas de la modelización jerárquica son, según mi experiencia, la reducción significativa del problema del sobreajuste y la capacidad de manejar conjuntos de entrenamiento muy grandes y muy pequeños. Un punto importante es que cuando se utilizan los métodos jerárquicos bayesianos, los intervalos de confianza y las pruebas de hipótesis no suelen ser métodos estadísticos que se apliquen.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X