He intentado encontrar una respuesta a esta pregunta pero no he encontrado una respuesta satisfactoria. Entiendo que networks(NNs) neural ofrece el potencial para construir complejos de modelos no lineales. Lo que no entiendo es qué NNs ofrece que los modelos no lineales estadísticos tradicionales no ofrecen. En otras palabras, ¿por qué elegiría un modelo NN sobre un modelo estadístico (por ejemplo, regresión no lineal) por lo menos en algunos casos?
Respuestas
¿Demasiados anuncios?La capacidad de incrustar estructurales y algorítmicos de los priores en el modelo.
El ejemplo más simple de esto es convolucional redes neuronales aplicadas a los datos de la imagen. La estructura anterior es que las regiones cercanas de la imagen están más estrechamente relacionados con el / los correspondiente a cada uno de los otros en comparación con las lejanas regiones.
Gráfico convolucional redes que se extiende de este "localidad" antes de gráfico arbitrario/estructuras de red. 1D y 3D convolucional redes se extiende la presente antes del sonido / 1D de la señal de datos y escaneos en 3D, respectivamente.
Potente solucionadores de programación cuadrática se han desarrollado. Es posible, literalmente, incrustar un QP solver como parte de una red neuronal, la inducción de un algoritmo antes de que dice "buscar soluciones que hacen uso de QP". El valor de la Iteración de las Redes de fuerzas de una antes de que se dice "hacer uso de este conocido RL algoritmo para resolver este RL problema".
Equipo de científicos de la visión puede construir la geometría 3D en una red neuronal, la aplicación de la anterior "vivimos en 3D en el espacio euclidiano, y aquí está nuestro modelo de cámara" en la arquitectura de la red.
Es mi entendimiento de que en este punto en el tiempo, no es real matemática sólida razón de por qué NN han visto tanto éxito como ellos tienen. Tal vez es por eso que usted no puede encontrar cualquier cosa convincente en este momento, aunque hay un montón de argumentos heurísticos.
La prueba de que esto trajo un montón (por buenas razones) es el "Universal Teorema de Aproximación"; es decir, con suficientes neuronas, cualquier función suave se puede aproximar a una arbitrariamente por una lo suficientemente grande como red neuronal. Esto sugiere que, dada la suficiente cantidad de parámetros en nuestro NN y suficiente de datos, debemos ser capaces de obtener arbitrariamente cerca de la verdadera función que estamos tratando de aproximar.
Sin embargo, el Universal Aproximación Teorema solo no explica el éxito de NN, como NN, definitivamente no son el único tipo de aprendizaje de máquina/modelo estadístico que tiene este tipo de propiedad! Por una sencilla alternativa, puede tomar un modelo lineal y simplemente ampliar las variables de control no-lineal de los términos y efectos de la interacción. Esto puede también aproximar cualquier función dada la suficiente cantidad de expansiones.
Ahora, en el caso de modelos lineales, aunque el Universal Aproximación Teorema es verdadero, podemos hacer los cálculos de inmediato para ver que esto se convierte en mucho , los datos hambre para ser de uso práctico. Por ejemplo, supongamos que tenemos un modelo con kk covariables. Un simple modelo lineal con ningún parámetro expansiones requiere el ajuste kk de los coeficientes. Si queremos incluir sólo el primer fin de los efectos de interacción, estamos ahora a k2k2 de los coeficientes. Aunque se trata de un conjunto de modelos que los simples efectos lineales, todavía no es tan complicado. Si queremos incluir la tercera orden de los efectos, esto requiere de k3k3 de los coeficientes. Tenga en cuenta que aún no hemos abordado la adición de no-lineal de parámetros expansiones todavía. Si kk es a todos los grandes, es obvio que esto no va a funcionar bien para la aproximación de funciones en el que las covariables tienen complejo de interacciones.
Así que para mí, la verdadera pregunta es qué tipo de modelos puede aproximado complejas relaciones de un conjunto finito de datos . Creo que el párrafo anterior es bastante convincente de que los modelos lineales con un simple parámetro de expansiones no son el camino a seguir. Es mi entendimiento de que el argumento de NN es que (a) no hay ningún argumento convincente de que ellos no trabajan y (b) empíricamente, parecen estar funcionando bastante bien en un amplio conjunto de problemas cuando uno tiene un montón de datos y la interacción compleja de características.