27 votos

¿Por qué no sólo descarga las redes neuronales y el aprendizaje profundo?

El problema Fundamental con el aprendizaje profundo y redes neuronales en general.

  1. Las soluciones que se ajustan los datos de entrenamiento son infinitas. No tenemos precisa una ecuación matemática que es satisfecha por un solo uno y que nos puede decir generaliza mejor. Simplemente hablando, no sabemos que generaliza mejor.

  2. La optimización de los pesos no es un problema convexo, así que nunca se sabe que se termina con un mundial o un mínimo local.

Así que ¿por qué no acaba de volcar las redes neuronales y en lugar de buscar un mejor modelo ML? Algo de lo que podemos entender, y algo que es consistente con un conjunto de ecuaciones matemáticas? Lineal y SVM no tienen este matemático inconvenientes y son plenamente compatibles con un conjunto de ecuaciones matemáticas. ¿Por qué no pensar sólo en el mismo sentido (no necesita ser lineal, aunque) y vienen con una nueva ML modelo mejor que el Lineal y SVM y las redes neuronales y el aprendizaje profundo?

49voto

mclaughlinj Puntos 1099
  1. No ser capaz de saber qué solución se generaliza mejor es un problema, pero no debería disuadirnos de lo contrario, el uso de una buena solución. Los seres humanos mismos a menudo no sabe lo que generaliza mejor (piénsese, por ejemplo, de la competencia unificación de las teorías de la física), pero que no nos causan muchos problemas.

  2. Se ha demostrado que es extremadamente raro para la formación de fracasar porque de mínimos locales. La mayoría de los mínimos locales en una profunda red neuronal están cerca en valor para el mínimo global, por lo que este no es un problema. fuente

Pero el más amplio de la respuesta es que usted puede hablar todo el día sobre nonconvexity y selección de modelo, y la gente sigue usando redes neuronales simplemente porque funcionan mejor que cualquier otra cosa (al menos en cosas como la clasificación de la imagen).

Por supuesto, también hay personas argumentando que no deberíamos centras demasiado en CNNs como la comunidad se centró en SVMs un par de décadas atrás, y en lugar de seguir buscando la próxima gran cosa. En particular, creo que recuerdo Hinton lamentando la eficacia de CNNs como algo que podría perjudicar la investigación. post relacionados

14voto

Nick Puntos 28

Como los comentarios a su pregunta en punto, hay un montón de personas que trabajan en la búsqueda de algo mejor. Yo aunque quisiera contestar a esta pregunta ampliando el comentario dejado por @josh


Todos los modelos están equivocados, pero algunos son útiles (Wiki)

La declaración anterior es una verdad general utilizado para describir la naturaleza de los modelos estadísticos. Utilizando los datos de que disponemos, podemos crear modelos que nos permiten hacer cosas útiles, tales como la aproximación de un valor de predicción.

Tomemos, por ejemplo, la Regresión Lineal

El uso de un número de observaciones, se puede ajustar a un modelo que nos dé un valor aproximado para una variable dependiente, dado cualquier valor de(s) de la variable independiente(s).

Burnham, K. P.; Anderson, R. D. (2002), el Modelo de Selección y Multimodel > Inferencia: Información Práctica-Enfoque Teórico (2ª ed.):

"Un modelo es una simplificación o la aproximación de la realidad y, por tanto, no reflejan toda la realidad. ... Cuadro señaló que "todos los modelos son mal, pero algunos son útiles". Mientras que un modelo nunca puede ser "verdad"," un el modelo puede ser clasificada desde muy útil, útil, poco útil para, finalmente, esencialmente inútil."

Las desviaciones de nuestro modelo (como se puede ver en la imagen de arriba) aparecen al azar, algunas observaciones están por debajo de la línea y algunos de los de arriba, pero nuestra línea de regresión muestra una correlación general. Mientras que las desviaciones en nuestro modelo aparecen al azar, en escenarios reales, hay otros factores en juego que la causa de esta desviación. Por ejemplo, imagínate ver los coches que conducimos a través de un cruce donde se debe girar a la izquierda o a la derecha para continuar, los coches vez en ningún patrón en particular. Mientras que se podría decir que la dirección de los coches a su vez es completamente al azar, cada controlador de llegar al cruce y en ese momento hacer un random decisión de qué camino tomar? En realidad son, probablemente, de algún lugar de partida específica por una razón específica, y sin intentar detener cada coche para preguntarles acerca de su razonamiento, sólo podemos describir sus acciones como al azar.

Donde somos capaces de ajustar un modelo con una mínima desviación, ¿cierto puede ser que un desconocido que, de manera inadvertida o inconmensurables variable no en algún punto de lanzar nuestro modelo? ¿El batir de las alas de una mariposa en Brasil desencadenar un tornado en Texas?

El problema con el uso de la Lineal y SVN modelos que mencionas solo es que estamos algo requerida manualmente observar nuestras variables y cómo cada uno de ellos se afectan unos a otros. A continuación, necesitamos decidir qué variables son importantes y escribir un algoritmo específico. Esto puede ser sencillo si sólo tenemos un par de variables, pero lo que si hemos tenido miles? Lo que si se quiere crear un generalizado reconocimiento de imagen modelo, podría ser conseguidas de manera realista con este enfoque?

Profundo de Aprendizaje y Redes Neuronales Artificiales (Rna) nos puede ayudar a crear modelos útiles para grandes conjuntos de datos que contienen enormes cantidades de variables (por ejemplo, bibliotecas de imágenes). Como usted menciona, hay una incomprensible número de soluciones que pudieran ajustarse a los datos utilizando redes neuronales, pero este número es realmente diferente a la cantidad de soluciones que necesitamos para desarrollarnos a través de ensayo y error?

La aplicación de las redes neuronales hacer gran parte del trabajo por nosotros, podemos especificar nuestras entradas y nuestras salidas deseadas (y cambiarlas más tarde para hacer mejoras) y dejar que la ANN para averiguar la solución. Esta es la razón por la Rna son a menudo descritos como "cajas negras". De una entrada que de salida de una aproximación, sin embargo (en términos generales) estas aproximaciones no de incluir los detalles de cómo se aproxima.

Y por lo que realmente se reduce a cuál es el problema que están tratando de resolver, ya que el problema se dictan qué modelo es el más útil. Los modelos no son absolutamente exactos, así que siempre hay un elemento de "mal", sin embargo, el más preciso de los resultados más útiles que son. Tener más detalle en los resultados sobre cómo la aproximación se hizo también pueden ser útiles, dependiendo del problema puede ser incluso más útil que el aumento de la precisión.

Si por ejemplo usted es el cálculo de una persona, puntaje de crédito, utilizando la regresión y SVMs proporciona los cálculos que pueden ser mejor explorado. Ser capaz de ajustar el modelo directamente y explicar a los clientes el efecto independiente de las variables independientes tienen sobre su puntaje general es muy útil. Una ANN puede ayudar en el procesamiento de grandes cantidades de variables para hacer más exacta la puntuación, pero esta precisión sería más útil?

8voto

OmaL Puntos 106

El mínimo global de mayo además de ser inútil, así que realmente no importa si nos encontramos o no. La razón es que, para la profundidad de las redes, no sólo el tiempo para encontrar que se vuelve exponencialmente más como el tamaño de la red aumenta, pero también el mínimo global corresponde a menudo a sobreajuste el conjunto de entrenamiento. Por lo tanto la capacidad de generalización de la DNN (que es lo que realmente nos preocupa) iba a sufrir. También, a menudo preferimos halagar a los mínimos correspondientes a un valor más alto de la función de pérdida, de más nítida de los mínimos correspondientes a un valor bajo de la pérdida de la función, porque la segunda se ocupará de muy mal con la incertidumbre en las entradas. Esto es cada vez más evidente con el desarrollo de la Bayesiano de Aprendizaje Profundo. Robusto Optimización de beats Determinista de Optimización muy a menudo, cuando se aplica a problemas del mundo real, donde la incertidumbre es importante.

Por último, es un hecho que DNNs acaba de patear el culo de los métodos, tales como XGBoost en la clasificación de la imagen y la PNL. Una empresa que se debe hacer un beneficio fuera de la clasificación de la imagen se seleccione correctamente como modelsto ser desplegado en la producción (y de invertir una cantidad significativa de dinero en función de la ingeniería, la canalización de los datos, etc. pero estoy divagando). Esto no significa que dominan todos los ML de medio ambiente: por ejemplo, lo hacen peor que XGBoost en la estructura de datos (ver los últimos ganadores de Kaggle competiciones) y que parece que todavía no hacerlo tan bien como los filtros de partículas de las series de tiempo de modelado. Sin embargo, algunos muy recientes innovaciones en RNNs puede modificar esta situación.

4voto

GaryD Puntos 21

Hay excelentes respuestas, la mayoría de pesaje con la utilidad de DL y Rna. Pero me gustaría objeto de la OP de una manera más fundamental, ya que la pregunta ya se da por sentado la matemática de la inconsistencia de las redes neuronales.

Primero de todo, no es una teoría matemática detrás (la mayoría de los modelos de) las Redes Neuronales. Usted podría asimismo sostienen que la regresión lineal no generalizar, a menos que el modelo subyacente es... bueno, lineal. En neuronales algoritmos, un modelo que se supone (aunque no explícitamente) y la instalación de error se calcula. El hecho de que los algoritmos son modificados con diferentes heurísticas no anula el original soporte matemático. Por CIERTO, la optimización local es también un matemáticamente consistente, mucho menos útil, de la teoría.

A lo largo de esta línea, si las Redes Neuronales sólo constituyen una clase de métodos dentro del conjunto de la caja de herramientas de los científicos, que es la línea que separa las Redes Neuronales del resto de las técnicas? De hecho, SVMs, fueron una vez considerados una clase de NNs y aún aparecen en los mismos libros. Por otro lado, NNs puede ser considerada como una (no lineal) de la técnica de regresión, tal vez con cierta simplificación. Estoy de acuerdo con el OP que debemos buscar mejor, bien fundada, algoritmos eficientes, independientemente de etiquetar como NNs o no.

0voto

Lily Long Puntos 69

Supongo que para algún problema nos preocupamos menos por el rigor matemático y la simplicidad pero más por su utilidad, estado actual es neural network es mejor en la realización de ciertas tareas como reconocimiento de patrones en el procesamiento de imagen.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X