25 votos

¿Por qué es tan importante tener principios y matemáticas las teorías para el aprender de máquina?

Me he estado preguntando, ¿por qué es tan importante tener principios teórico de la máquina de aprendizaje? Desde una perspectiva personal como ser humano, puedo entender por qué los principios de Aprendizaje de la Máquina sería importante:

  • los seres humanos así como la comprensión de lo que están haciendo, nos encontramos con la belleza y la satisfacción de entender.
  • a partir de una teoría del punto de vista, la matemática es divertida
  • cuando hay principios que guían el diseño de las cosas, hay menos tiempo invertido en contestar al azar, extraño ensayo y error. Si hemos entendido, dicen, de cómo las redes neuronales realmente trabajado, tal vez podríamos pasar mucho mejor tiempo en el diseño en lugar de la enorme cantidad de ensayo y error que va en eso ahora.
  • más recientemente, si los principios son claros y la teoría es clara, entonces no debe ser (con suerte) más transparencia al sistema. Esto es bueno porque si entendemos lo que el sistema está funcionando, entonces AI riesgos que mucha gente bombo acerca de casi desaparece de inmediato.
  • principios parecen ser una manera concisa para resumir las estructuras importantes del mundo podría tener y cuándo utilizar una herramienta en lugar de otro.

Sin embargo, son estas razones lo suficientemente fuertes como realmente para justificar un intenso estudio teórico de la máquina de aprendizaje? Una de las mayores críticas de la teoría es que debido a su tan difícil de hacer, que por lo general terminan de estudiar algunas de las restringida en el caso o de los supuestos que tienen que ser llevados en esencia los resultados inútiles. Creo que escuché una vez en una conferencia en el MIT por el creador de la Tor. Que algunas de las críticas de Tor se ha escuchado es el argumento teórico, pero esencialmente, las personas nunca son capaces de demostrar cosas acerca de los escenarios reales de la vida real, porque son tan complicados.

En esta nueva era con mucho la potencia de cálculo y datos, podemos probar nuestros modelos con datos reales de conjuntos y conjuntos de la prueba. Podemos ver si las cosas funcionan mediante el empirismo. Si podemos conseguir que en lugar de lograr AGI o sistemas que funcionan con la ingeniería y el empirismo, es todavía vale la pena seguir con principios y justificación teórica para el aprendizaje de máquina, especialmente cuando el cuantificar los límites son tan difíciles de lograr, pero intuiciones y respuestas cualitativas son mucho más fáciles de lograr con un enfoque impulsado por los datos? Este enfoque no estaba disponible en la estadística clásica, que es por eso que creo que la teoría era tan importante en aquellos tiempos, debido a que las matemáticas era la única manera de estar seguro de que las cosas estaban en lo correcto, o que en realidad trabajó la manera que pensaba.

Yo personalmente he amado siempre y pensamiento de la teoría y de un enfoque basado en principios fue importante. Pero con el poder de ser capaz de probar las cosas con datos reales y el poder de computación me pregunto si el alto esfuerzo (y, potencialmente, de baja remuneración), teórico de seguir es todavía vale la pena.

Es teórica y basada en los principios de perseguir de aprendizaje de máquina realmente tan importante?

18voto

Josh Pearce Puntos 2288

No hay una respuesta correcta a esto, pero, tal vez, "todo con moderación". Mientras que muchas de las recientes mejoras en el aprendizaje de máquina, es decir, deserción escolar, residual conexiones, densa de conexiones, lote de normalización, no están arraigados en particular profundo de la teoría (la mayoría puede estar justificado en un par de párrafos), creo que no hay, finalmente, un cuello de botella para explicar cómo muchos de estos resultados puede tener un impacto enorme. En algún momento usted tiene que sentarse y trabajar de algo más de teoría para dar el próximo gran salto. Así, la teoría de la guía de la intuición, porque se puede demostrar la calidad o las limitaciones de un modelo dentro de una duda razonable. Esto es particularmente importante para determinar si decir, SGD es mejor que el Impulso para un problema en particular. Esa es la cosa buena acerca de la teoría: las fuerzas que resumen el problema se está resolviendo, y en muchos casos esto puede ser muy beneficioso porque los objetos abstractos son rigurosamente definido y usted puede ver fácilmente las similitudes entre los dos aparentemente diferentes objetos.

El gran ejemplo que me viene a la mente son las máquinas de vectores soporte. Ellos fueron originalmente ideado por Vapnik y Chervonenkis en la década de los años 60, pero realmente despegó en los años 90, cuando Vapnik y otros se dio cuenta de que se puede hacer no lineal SVMs usando el Kernel Truco. Vapnik y Chervonenkis también desarrolló la teoría detrás de la VC dimensión, que es un intento de venir para arriba con una complejidad de medida para el aprendizaje de máquina. No puedo pensar en ninguna aplicación práctica de VC dimensión, pero creo que la idea de la SVMs fue probablemente influenciado por su trabajo en este. El Núcleo Truco viene de lo abstracto-tonterías matemáticas sobre espacios de Hilbert. Puede que sea una exageración decir que es necesario conocer este resumen tonterías que venir para arriba con SVMs, pero, creo que probablemente ayudó bastante, sobre todo porque tiene un montón de matemáticos entusiasmados con el aprendizaje de máquina.

Sobre el tema de la ResNet, ha habido algunos realmente impecable trabajo recientemente, lo que sugiere que el Residual de las arquitecturas realmente no necesita ser 100s de capas de profundidad. De hecho, algunos trabajos sugieren que el residual de las conexiones son muy similares a RNNs, por ejemplo, cerrar las Brechas Entre Residual de Aprendizaje, Recurrente de las Redes Neuronales y la Corteza Visual", Liao et al. Creo que esto sin duda hace que vale la pena considerar más profundo, ya que sugiere que, en teoría, ResNet con muchas capas es, de hecho, sumamente ineficiente y la hinchada.

Las ideas para el gradiente de recorte para RNNs fueron muy bien justificada en el ahora famoso artículo "Sobre la dificultad de la formación recurrente de las redes neuronales" - Pascanu, et. al. Mientras que usted probablemente podría venir para arriba con un gradiente de recorte sin toda la teoría, creo que va un largo camino hacia la comprensión de por qué RNNs son tan maldito duro para entrenar sin hacer algo de fantasía, especialmente por el dibujo de las analogías con el sistema dinámico de mapas (como el papel de arriba).

Hay un montón de entusiasmo acerca de la Entropía Estocástico de Gradiente de la pendiente de los métodos. Estos se derivan de Langevin dinámica, y gran parte de los resultados teóricos están firmemente arraigada en los clásicos teóricos de la PDE la teoría y la física estadística. Los resultados son prometedores porque echaron SGD en una nueva luz, en términos de cómo se queda atascado en las fluctuaciones locales de la función de pérdida, y cómo puede uno localmente suavizar la pérdida de función para realizar SGD ser mucho más eficiente. Va un largo camino hacia la comprensión cuando SGD es útil y cuando se comporta mal. Esto no es algo que se puede derivar empíricamente tratando de SGD en los diferentes tipos de modelos.

En el papel Intrigante propiedades de las redes neuronales, los autores concluyen que las redes neuronales son sensibles a la confrontación ejemplos (que se define como calculado, artimañas de las perturbaciones de una imagen) debido a la alta Lipchitz constantes entre las capas. Esto todavía es un área activa de investigación y sólo puede entenderse mejor a través de la más derivaciones teóricas.

También está el ejemplo de Topológico de Análisis de Datos, alrededor de la cual al menos una empresa (Ayasdi)se ha formado. Este es un ejemplo especialmente interesante debido a que las técnicas utilizadas para esto son tan específicas y abstracto que incluso a partir de hoy, todavía va a tardar un montón de tiempo para ver donde las ideas de esta teoría. Mi entendimiento es que la complejidad computacional de los algoritmos involucrados tiende a ser bastante alta (pero, de nuevo fue igualmente alta para las redes neuronales hasta hace 20 años).

8voto

Dipstick Puntos 4869

La respuesta a esta pregunta es realmente muy simple. Con la justificación teórica detrás de la máquina modelo de aprendizaje por lo menos se puede demostrar que cuando algunos más o menos realista de las condiciones se cumplen, hay algunas garantías de optimalidad de la solución. Sin ella, no tenemos ninguna garantía de ningún tipo. Seguro, usted puede decir: "vamos a comprobar lo que funciona y lo uso para el problema en particular", pero esto no es factible ya que existe un infinito número de maneras de cómo se podría resolver cualquier máquina de problema de aprendizaje.

Decir que se desea predecir algunos $Y$, teniendo en cuenta algunas $X$. ¿Cómo sabes que $X + 42$ no es la mejor manera de resolverlo? ¿Qué acerca de la $X + 42.5$? O, $\sqrt{X - 42}$? Tal vez acaba de regresar $42$ como su predicción? O si $X$ es extraño el uso de $X+42$ y en caso contrario, devuelve $0$? Seguro, todas aquellas sugerencias suene absurdo, pero ¿cómo puede usted estar seguro de que, sin ninguna teoría, de que uno de ellos no sería óptimo? Con un número infinito de posibles soluciones, incluso el más simple problema se vuelve irresoluble. La teoría de los límites de su "espacio de búsqueda" de los modelos factibles para cierta clase de problemas (usted sabe cuáles son los modelos que vale la pena considerar y que no).

6voto

Ofir Baruch Puntos 121

Con sólo mirar a la pregunta: ¿teóricos y de principios perseguir de aprendizaje de máquina realmente tan importante?

Definir lo que significa "importante". Viniendo desde un punto de vista filosófico es una distinción fundamental, si queremos describir algo o entender algo. En un poco crudo respuesta es la diferencia entre ser científico o algo más. La parte práctica de la misma es de ninguna preocupación a la pregunta subyacente. Si algo es demasiado difícil de probar, o incluso imposible de probar en sí mismo, esto es un descubrimiento importante. (Entrar Goedel et al.) Pero esto no quiere decir que sea irrelevante. Es posible que al menos parecen irrelevantes desde un punto de vista pragmático. Pero debe ser por lo menos ser reconocido como algo de gran importancia y valor.

Considere la posibilidad de una analogía: la medicina como un todo (y de su pasado) no es científico. En ciertas formas puede ser que en realidad nunca ser. Se trata de una disciplina que se rige íntegramente por sus resultados. En la mayoría de los casos no hay nada como "la verdad". Pero resulta que algunas partes pueden ser en realidad científico-y aquí es donde la mayoría de la planificación de los progresos que está sucediendo.

Otro muy breve descripción podría ser: sin teoría, usted puede hacer un montón de dinero. Si es realmente útil para un "bien mayor", a continuación, incluso se podría obtener un premio Nobel por ello. Pero usted nunca va a conseguir nunca la medalla Fields.

4voto

jpmuc Puntos 4817

Los seres humanos han sido capaces de construir barcos, coches y edificios de los siglos, sin que las leyes de la física. Pero desde la ciencia moderna, hemos sido capaces de tomar esas tecnologías a un nivel completamente nuevo. Una probada teoría permite hacer mejoras que se basara en los principios. Nunca hubiéramos llegado a la luna o han ordenadores sin la necesidad de una teoría matemática de la materia y la computación.

Aprendizaje de máquina es sólo otro campo de la ciencia y la ingeniería como cualquier otro. Un enfoque basado en principios para la máquina de aprendizaje nos ha provisto de un núcleo de máquinas, de aprendizaje estructurado, y el conjunto de métodos (impulsar, bosques aleatorios).

4voto

tchen Puntos 1344

El empirismo vs Teoría

Usted escribió:

Una de las mayores críticas de la teoría es que debido a su tan difícil de hacer, que por lo general terminan de estudiar algunas de las restringida en el caso o de los supuestos que tienen que ser llevados en esencia los resultados inútiles.

Esto creo que demuestra que la principal brecha entre los dos puntos de vista que podemos llamar empírica y teórica.

Desde un punto de vista empírico, tal como usted la describe así, los teoremas son inútiles, ya que nunca son lo suficientemente complejas para modelar el mundo real. Hablan simplificado ideal escenarios que no se aplican en cualquier lugar en el mundo real. ¿Cuál es el punto de hacer teoría.

Sin embargo, desde un punto de vista teórico, la verdad es lo contrario. Lo que puede el empirismo nos enseñan más allá de "me encontré este método en este conjunto de datos y que era mejor que correr que otro método en este mismo conjunto de datos". Esto es útil para una instancia, pero dice poco sobre el problema.

Lo que la teoría no ofrece garantías. También nos permite el estudio simplificado escenarios exactamente por lo que podemos comenzar a comprender lo que está pasando.

Ejemplo

Imagina un ejemplo: usted quiere ver cómo el concepto de deriva (cuando los datos cambian con el tiempo) afecta su capacidad de aprender. ¿Cómo sería un puro y empírico a esta pregunta? Todo lo que puede hacer realmente para iniciar la aplicación de diferentes métodos y pensar acerca de trucos que puede hacer. Todo el procedimiento podría ser similar a este:

  • Tomar los últimos 300 días y tratar de detectar si la media de esa variable ha cambiado. OK es algo trabajado.
  • Lo que si tratamos de 200 días en su lugar?
  • OK mejor, vamos a tratar de cambiar el algoritmo una vez a la deriva.
  • Obtener más conjuntos de datos y ver qué método desarrollado hasta ahora funciona mejor.
  • Los resultados no son concluyentes, tal vez supongo que hay más de un tipo de concepto se desplaza pasando?
  • Trate de simulaciones. Lo que si podemos simular algún concepto de deriva y, a continuación, se aplican diferentes métodos con diferente número de días usados para detectar si ha ocurrido un cambio.

Lo que tenemos aquí es bastante preciso de los resultados en un par de conjuntos de datos. Tal vez los datos fue así que la actualización del algoritmo de aprendizaje basado en las observaciones de 200 días pasados se dio el mayor exactitud. Pero el mismo trabajo para otros datos? ¿Qué tan confiable es este de 200 días de estimación? Simulaciones de ayuda pero no reflejan el mundo real - el mismo problema que la teoría tenía.

Ahora imagina la misma desde un punto de vista teórico:

  • Simplificar el escenario de una absurda nivel. Tal vez el uso de un 2-variable distribución normal con una media de repente cambiando con el tiempo.
  • Elija sus condiciones claramente - elige el modelo que es óptimo en el normal de los datos. Suponga que usted sabe que los datos es normal. Todo lo que no sabemos es cuando el cambio en los medios de producirse.
  • Dispositivo de un método para detectar cuando el cambio se ha producido. De nuevo puede comenzar con 200 observaciones pasadas.
  • Basado en esta configuración debemos ser capaces de calcular el error promedio para el clasificador, el promedio de tiempo que tarda el algoritmo de detectar si ha ocurrido un cambio y actualización. Tal vez el peor de los escenarios y de garantías, dentro de un 95% de nivel de oportunidad.

Ahora esta situación es más clara - hemos sido capaces de aislar el problema de la fijación de todos los detalles. Sabemos que el error promedio de nuestros clasificadores. Probablemente puede estimar el número de días que se necesitaría para detectar ese cambio se ha producido. Deducir qué parámetros de esto depende (como tal vez el tamaño del cambio). Y ahora se basa en algo que producir una solución práctica. Pero lo más importante de todo: este resultado (si calcula correctamente) es inmutable. Es aquí para siempre y nadie puede aprender de él.

Como uno de los padres de la moderna máquina de aprendizaje - Jürgen Schmidhuber le gusta decir:

La heurística de ir y venir teoremas son para la eternidad.

Las lecciones de otros campos

Brevemente también quería mencionar algunos paralelismos con la física. Creo que solía tener este dilema así. Los físicos estaban estudiando sin fricción objetos de masa infinita que se mueven dentro de un espacio infinito. A primera vista lo que puede nos dice esto acerca de la realidad donde queremos saber cómo los copos de nieve se mueven con el viento. Pero se siente como la teoría llevó un camino muy largo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X