Estoy utilizando redes neuronales para la mayoría de los problemas. La cuestión es que en la mayoría de los casos se trata más de la experiencia del usuario que del modelo. Estas son algunas de las razones por las que me gustan las NN.
- Son flexibles. Puedo lanzar cualquier pérdida que quiera en ellos: pérdida de bisagra, cuadrado, entropía cruzada, lo que sea. Mientras sea diferenciable, puedo incluso diseñar una pérdida que se ajuste exactamente a mis necesidades.
- Pueden tratarse de forma probabilística: Redes neuronales bayesianas, Bayes variacional, MLE/MAP, todo está ahí. (Pero en algunos casos es más difícil).
- Son rápidos. La mayoría de los MLP son dos multiplicaciones de matrices y una no linealidad aplicada por componentes en el medio. Supera eso con una SVM.
Revisaré sus otros puntos paso a paso.
Tener una sólida teoría fundacional
Yo diría que las NN son igualmente fuertes en ese caso: ya que las entrenas en un marco probabilístico. Eso hace posible el uso de priores y un tratamiento bayesiano (por ejemplo, con técnicas variacionales o aproximaciones).
Alcanzar el óptimo global gracias a la programación cuadrática
Para un conjunto de hiperparámetros. Sin embargo, la búsqueda de buenos hps no es convexa, y no sabrás si has encontrado el óptimo global también.
No tiene problemas para elegir un número adecuado de parámetros
Con las SVM, también hay que seleccionar los hiperparámetros.
Necesita menos memoria para almacenar el modelo predictivo
Es necesario almacenar los vectores de apoyo. Las SVM no serán en general más baratas de almacenar que las MLP, depende del caso.
Proporcionar resultados más legibles y una interpretación geométrica
La capa superior de un MLP es una regresión logística en el caso de la clasificación. Por lo tanto, hay una interpretación geométrica (separando el hiperplano) y una interpretación probabilística también.
4 votos
Creo que la pregunta puede ser un poco amplia. Pero en la práctica las NN parecen ser mucho más sintonizables con la elección de la estructura de la NN, mientras que las SVM tienen menos parámetros. Hay dos preguntas, si una NN estuviera configurada de forma óptima para resolver un problema, ¿cómo se comportaría frente a la SVM? Y en manos del profesional medio, ¿cómo se compara la SVM con la NN?
2 votos
@PatrickCaldon Entiendo tu punto de vista, pero más parámetros a tratar no siempre significan mejor herramienta, si no sabes configurarlos de forma adecuada. Incluso si es posible, podría ser necesario un largo estudio; o, puede que no necesites una sintonización tan amplia para el propósito de tu aplicación
1 votos
Ese es mi punto. La pregunta es ¿cómo funciona la herramienta en circunstancias ideales en problemas particulares? o ¿cómo funciona la herramienta para la mayoría de la gente la mayor parte del tiempo? Creo que el mayor componente aquí es la persona, sin embargo. Por eso creo que los factores relevantes suelen ser: ¿Qué tan difícil es aprender cada herramienta? ¿Hay expertos que sepan utilizarla? etc. Eso puede explicar mucho el "he sacado buen rendimiento a X".
1 votos
Por lo que sé, las RNA multicapa feedforward son aproximadores universales, más o menos, independientemente de la función de activación. No conozco un resultado similar para las SVM, que dependen, a mi entender, mucho más de la función de núcleo utilizada.
0 votos
Debería decir "multicapa", por supuesto.
2 votos
En el uso práctico, me parece que las NN son un poco más prácticas debido al tiempo de entrenamiento. Las SVM no lineales simplemente no pueden manejar N grandes muy bien. Ambos algoritmos pueden sobreajustarse y ambos necesitan una fuerte regularización.
0 votos
Si el núcleo y la función de pérdida se diseñan cuidadosamente, superará a la mayoría de las NN.
0 votos
Muchos operadores utilizan el comercio de SVM porque ofrecen óptimos globales, mientras que las NN tienden a dar mejores óptimos locales. Las NN tienden a superar a las SVM cuando predicen a partir de datos cíclicos, como las ondas que se repiten en los datos minuto a minuto de los mercados de divisas.