20 votos

Extreme learning machine: ¿de qué se trata?

He estado pensando, la implementación y uso de la Extreme Learning Machine (ELM) paradigma para más de un año ahora, y cuanto más hago, más me cabe duda de que es realmente una buena cosa. Mi opinión, sin embargo, parece estar en contraste con la comunidad científica, donde -- cuando el uso de citas y nuevas publicaciones como una medida -- parece ser un tema candente.

El OLMO ha sido introducida por Huang et. al. alrededor de 2003. La idea subyacente es bastante simple: comenzar con un 2-capa de red neuronal artificial en forma aleatoria y asignar los coeficientes de la primera capa. Este, uno se transforma en el problema de optimización no lineal que suele ser manejado a través de retropropagación en una regresión lineal simple problema. Más detallada, por $\mathbf x \in \mathbb R^D$, el modelo es

$$ f(\mathbf x) = \sum_{i=1}^{N_\text{hidden}} w_i \, \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$$

Ahora, sólo el $w_i$ se ajusta (en el fin de minimizar el cuadrado de-error-loss), mientras que el $v_{ik}$'s son todos elegidos al azar. Como una compensación de la pérdida de grados de libertad, la costumbre, la sugerencia es el uso de un gran número de nodos ocultos (es decir, libres de los parámetros de $w_i$).

Desde otro punto de vista (no el promovidas generalmente en la literatura, que viene de la red neuronal lado), todo el procedimiento es simplemente la regresión lineal, sino uno donde usted elige sus funciones de base $\phi$ al azar, por ejemplo

$$ \phi_i(\mathbf x) = \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$$

(Existen muchas otras opciones al lado de la sigmoide son posibles para las funciones aleatorias. Por ejemplo, el mismo principio también se ha aplicado el uso de funciones de base radial.)

Desde este punto de vista, todo el método se convierte en casi demasiado simplista, y este es también el punto donde empiezo a dudar de que el método es realmente buena (... mientras que los científicos de marketing es sin duda). Así que, aquí están mis preguntas:

  • La idea de trama del espacio de entrada mediante un sistema aleatorio de funciones de base es, en mi opinión, buena para las dimensiones bajas. En altas dimensiones, creo que no es posible encontrar una buena elección mediante la selección al azar con un número razonable de basisfunctions. Por lo tanto, ¿el OLMO se degradan en alto dimensiones (debido a la maldición de la dimensionalidad)?

  • ¿Sabe usted de los resultados experimentales de apoyo/contradicen esta opinión? En los enlaces de papel no es sólo un 27 dimensiones de regresión del conjunto de datos (PYRIM), donde el método funciona de forma similar a la SVMs (mientras que yo no le gustaría ver una comparación a un retropropagación ANN)

  • Más en general, me gustaría aquí su comentario sobre el OLMO método.

10voto

John Richardson Puntos 1197

Su intuición sobre el uso de OLMO para grandes dimensiones de los problemas es correcta, tengo algunos resultados sobre esto, que me estoy preparando para su publicación. Para muchos problemas prácticos, los datos no son muy no lineal y el OLMO hace bastante bien, pero siempre habrá conjuntos de datos donde la maldición de la dimensionalidad significa que la probabilidad de encontrar una buena base con la función de curvatura justo donde los necesitas, se convierte en algo pequeño, incluso con muchos de los vectores de la base.

Yo personalmente usaría algo así como un mínimo de los mínimos cuadrados, máquina de soporte vectorial (o una función de base radial de la red) y probar y elegir los vectores de la base de aquellas en el conjunto de entrenamiento en un codicioso manera (ver, por ejemplo, mi papel, pero había otros/mejor enfoques que se han publicado en torno a la misma hora, por ejemplo, en el muy buen libro por Scholkopf y Smola en el Aprendizaje con los Granos"). Yo creo que es mejor para calcular una solución aproximada para el problema exacto, en lugar de una solución exacta a un aproximado de problema, y el núcleo de las máquinas tienen un mejor sustento teórico (por un núcleo fijo ;o).

0voto

shrey Puntos 68

El OLMO "aprende" de los datos por analíticamente la solución para la salida de pesos. Por lo tanto el más grande de los datos que se introducen en la red va a producir mejores resultados. Sin embargo, esto también requiere de un mayor número de nodos ocultos. Si el OLMO es entrenado con poco o ningún error, cuando se le da un nuevo conjunto de entrada, es incapaz de producir el resultado correcto.

La principal ventaja de OLMO con respecto a la tradicional red neuronal tal una vuelta de propagación es su rápido tiempo de entrenamiento. La mayoría de la computación tiempo que se gasta en la resolución de la salida de la capa de peso como se menciona en el Huang papel.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X