14 votos

Optimización y aprendizaje automático

Quería saber cuánto del aprender de máquina requiere optimización. Por lo que he escuchado estadísticas es un tema matemático importante para personas que trabajan con el aprender de máquina. ¿Del mismo modo lo importante es para alguien que trabaja con la máquina de aprender a aprender sobre optimización convexo o no convexo?

31voto

Paulius Puntos 369

La manera en que yo veo es que las estadísticas / aprendizaje de la máquina te dice lo que debe ser la optimización, y la optimización es la forma de hacerlo.

Por ejemplo, considere la posibilidad de regresión lineal con $Y = X\beta + \varepsilon$ donde$E(\varepsilon) = 0$$Var(\varepsilon) = \sigma^2I$. La estadística nos dice que este es (a menudo) un buen modelo, pero nos encontramos con nuestro estimado real $\hat \beta$ mediante la resolución de un problema de optimización

$$ \hat \beta = \textrm{argmin}_{b \in \mathbb R^p} ||Y - Xb||^2. $$

Las propiedades de $\hat \beta$ nos son conocidos a través de las estadísticas para saber que este es un buen problema de optimización a resolver. En este caso se trata de una optimización fácil, pero esto aún muestra el principio general.

Más generalmente, la mayor parte de la máquina de aprendizaje puede ser visto como la solución de $$ \hat f = \textrm{argmin}_{f \in \mathscr F} \frac 1n \sum_{i=1}^n L(y_i, f(x_i)) $$ donde estoy escribiendo esto sin regularización, pero que podría ser fácilmente añadidos.

Una gran cantidad de investigación en estadística de la teoría del aprendizaje (SLT) ha estudiado las propiedades de estos argminima, si son o no son asintóticamente óptimo, cómo se relacionan con la complejidad de $\mathscr F$, y muchas otras cosas. Pero cuando usted realmente desea conseguir $\hat f$, a menudo terminan con una difíciles de optimización y todo un conjunto separado de las personas que estudian el problema. Creo que la historia de la SVM es un buen ejemplo aquí. Tenemos el SLT gente como Vapnik y Cortés (y muchos otros), que mostró cómo la SVM es un buen problema de optimización a resolver. Pero luego se fue a otros como John Platt y el LIBSVM autores que hicieron esto posible en la práctica.

Para responder a su pregunta exacta, conocer algunos de optimización es ciertamente útil, pero en general nadie es un experto en todas estas áreas de manera que puedas aprender tanto como pueda, pero hay algunos aspectos que siempre va a ser algo de una caja negra. Tal vez usted no ha adecuadamente estudiado el SLT resultados de detrás de su favorito ML algoritmo, o tal vez usted no conoce el funcionamiento interno de la optimizador de que usted está utilizando. Es un viaje para toda la vida.

13voto

Jim Thio Puntos 767

En la práctica, una gran cantidad de paquetes de cuidar de la optimización y de la mayoría de las matemáticas detalles para usted. Por ejemplo, TensorFlow puede hacer backprop+estocástico de gradiente de la pendiente para el entrenamiento de redes neuronales para usted de forma automática (sólo tienes que especificar la tasa de aprendizaje). scikit-learn ML herramientas por lo general no requieren que usted realmente saber cosas acerca de cómo la optimización de hecho se produce, pero tal vez sólo establecer algunos parámetros de ajuste y se encarga del resto (por ejemplo, el número de iteraciones que el optimizador se ejecuta). Por ejemplo, usted puede entrenar a un SVM sin saber de matemáticas en scikit-learn-- sólo pienso en los datos, el núcleo del tipo, y seguir adelante.

Dicho esto, sabiendo básicos de la optimización (por ejemplo, a nivel de Boyd y Vandenberghe la Optimización Convexa / Bertsekas' programación no Lineal) puede ser útil en el algoritmo / problema de diseño y análisis, especialmente si usted está trabajando en la teoría de cosas. O, la implementación de los algoritmos de optimización de sí mismo.

Tenga en cuenta que el libro de texto de métodos de optimización a menudo necesitan cambios para que funcione realmente en la práctica moderna de la configuración; por ejemplo, usted no puede utilizar clásico Robbins-Munroe estocástico de gradiente de la pendiente, pero más rápido acelerado de la variante. Sin embargo, usted puede obtener algunas conclusiones de trabajar con los problemas de optimización.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X