Una capa de máximo es simplemente una capa donde la función de activación es el máximo de las entradas. Como se indica en el documento, incluso un MLP con 2 unidades de maxout puede aproximar cualquier función. Dan un par de razones de por qué el maxout puede funcionar bien, pero la razón principal que dan es la siguiente
El abandono puede considerarse una forma de promediación del modelo en la que se entrena una subred aleatoria en cada iteración y al final se promedian los pesos de las diferentes redes aleatorias. Como no se pueden promediar los pesos explícitamente, se utiliza una aproximación. Esta aproximación es exactamente para una red lineal
En maxout, no dejan caer las entradas a la capa de maxout. Por lo tanto, la identidad de la entrada que emite el valor máximo para un punto de datos permanece inalterada. Por lo tanto, el abandono sólo se produce en la parte lineal del MLP, pero todavía se puede aproximar a cualquier función debido a la capa maxout.
Como el abandono se produce sólo en la parte lineal, conjeturan que esto conduce a un promedio de modelos más eficiente, ya que la aproximación del promedio es exacta para las redes lineales.
Su código está disponible aquí .