He estado pensando, la implementación y uso de la Extreme Learning Machine (ELM) paradigma para más de un año ahora, y cuanto más hago, más me cabe duda de que es realmente una buena cosa. Mi opinión, sin embargo, parece estar en contraste con la comunidad científica, donde -- cuando el uso de citas y nuevas publicaciones como una medida -- parece ser un tema candente.
El OLMO ha sido introducida por Huang et. al. alrededor de 2003. La idea subyacente es bastante simple: comenzar con un 2-capa de red neuronal artificial en forma aleatoria y asignar los coeficientes de la primera capa. Este, uno se transforma en el problema de optimización no lineal que suele ser manejado a través de retropropagación en una regresión lineal simple problema. Más detallada, por $\mathbf x \in \mathbb R^D$, el modelo es
$$ f(\mathbf x) = \sum_{i=1}^{N_\text{hidden}} w_i \, \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$$
Ahora, sólo el $w_i$ se ajusta (en el fin de minimizar el cuadrado de-error-loss), mientras que el $v_{ik}$'s son todos elegidos al azar. Como una compensación de la pérdida de grados de libertad, la costumbre, la sugerencia es el uso de un gran número de nodos ocultos (es decir, libres de los parámetros de $w_i$).
Desde otro punto de vista (no el promovidas generalmente en la literatura, que viene de la red neuronal lado), todo el procedimiento es simplemente la regresión lineal, sino uno donde usted elige sus funciones de base $\phi$ al azar, por ejemplo
$$ \phi_i(\mathbf x) = \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$$
(Existen muchas otras opciones al lado de la sigmoide son posibles para las funciones aleatorias. Por ejemplo, el mismo principio también se ha aplicado el uso de funciones de base radial.)
Desde este punto de vista, todo el método se convierte en casi demasiado simplista, y este es también el punto donde empiezo a dudar de que el método es realmente buena (... mientras que los científicos de marketing es sin duda). Así que, aquí están mis preguntas:
La idea de trama del espacio de entrada mediante un sistema aleatorio de funciones de base es, en mi opinión, buena para las dimensiones bajas. En altas dimensiones, creo que no es posible encontrar una buena elección mediante la selección al azar con un número razonable de basisfunctions. Por lo tanto, ¿el OLMO se degradan en alto dimensiones (debido a la maldición de la dimensionalidad)?
¿Sabe usted de los resultados experimentales de apoyo/contradicen esta opinión? En los enlaces de papel no es sólo un 27 dimensiones de regresión del conjunto de datos (PYRIM), donde el método funciona de forma similar a la SVMs (mientras que yo no le gustaría ver una comparación a un retropropagación ANN)
Más en general, me gustaría aquí su comentario sobre el OLMO método.