Antecedentes: Gran parte de la investigación moderna de los últimos ~4 años (post alexnet ) parece haberse alejado del uso del preentrenamiento generativo de las redes neuronales para lograr resultados de clasificación punteros.
Por ejemplo, los primeros resultados para mnist aquí sólo 2 de los 50 primeros artículos parecen utilizar modelos generativos, y ambos son RBM. Los otros 48 trabajos premiados se refieren a diferentes arquitecturas discriminatorias feed forward, con un gran esfuerzo por encontrar inicializaciones de pesos y funciones de activación mejores o novedosas, distintas de la sigmoidea utilizada en los RBM y en muchas redes neuronales antiguas.
Pregunta: ¿Hay alguna razón moderna para seguir utilizando máquinas de Boltzmann restringidas?
Si no es así, ¿hay alguna modificación de facto que se pueda aplicar a estas arquitecturas feed forward para hacer que cualquiera de sus capas sea generativa?
Motivación: Lo pregunto porque algunos de los modelos que veo disponibles, normalmente variantes del RBM, no tienen necesariamente homólogos discriminativos análogos obvios a estas capas/modelos generativos, y viceversa. Por ejemplo:
-
CRBM (aunque se podría argumentar que la CNN utilizaba arquitecturas feed forward es la arquitectura análoga discriminativa)
Además, estos eran claramente pre alexnet también, de 2010, 2011 y 2009 respectivamente.