13 votos

¿Qué regularidades y regularización?

Yo soy de escuchar estas palabras más y más a medida que el estudio de aprendizaje automático. De hecho, algunas personas han ganado medalla Fields de trabajo en las regularidades de ecuaciones. Así que, supongo que esto es un término que lleva en sí la estadística física/matemáticas para el aprendizaje de máquina. Naturalmente, un número de personas que pidió no podía explicar intuitivamente.

Sé que los métodos tales como la deserción escolar ayuda en la regularización (=> dicen que reduce el sobreajuste, pero yo realmente no obtener lo que es: si sólo se reduce el sobreajuste, ¿por qué no sólo tiene que llamar anti-sobreajuste métodos => debe haber algo más creo, por lo tanto esta pregunta).

Estaría muy agradecido (supongo que el ingenuo ML de la comunidad sería demasiado!) si pudieras explicar:

  1. ¿Cómo se puede definir la regularidad? ¿Cuál es la regularidad?

  2. Es la regularización de una manera de asegurar la regularidad? es decir, la captura de regularidades?

  3. ¿Por qué ensembling métodos como la deserción escolar, la normalización de los métodos de toda pretensión de hacer de regularización?

  4. ¿Por qué estos (regularidad/regularización) en el aprendizaje de máquina?

Muchas gracias por tu ayuda.

8voto

Pitto Puntos 958

La regularización se emplea en casi todos los algoritmos de aprendizaje automático donde estamos tratando de aprender de muestras finitas de los datos de entrenamiento.

Voy a intentar indirectamente responder a sus preguntas específicas mediante la explicación de la génesis del concepto de regularización. Toda la teoría es mucho más detallada y esta explicación no debe ser interpretado como completo, pero su intención de simplemente apuntar en la dirección correcta para una mayor exploración. Ya que su objetivo principal es conseguir una intuitiva comprensión de regularización, he resumir y simplificar enormemente la siguiente explicación del Capítulo 7 de "Redes Neuronales y el Aprendizaje de Máquinas", 3ª edición por Simon Haykin (y omite algunos detalles mientras lo hace).

Permite revisar el aprendizaje supervisado problema con las variables independientes $x_i$ y la variable dependiente $y_i$ como tratando de encontrar una función de $f$ que será capaz de "mapa" de la entrada X salida Y.

Para llevar esto más lejos, permite entender Hadamard de la terminología de un "bien planteado" problema - un problema bien planteado si satisface las siguientes tres condiciones:

  1. Para cada entrada,$x_i$, y la salida de $y_i$ existe.
  2. Por un par de entradas de $x_1$ y $x_2$, $f(x_1) = f(x_2)$ si y sólo si $x_1 = x_2$.
  3. La asignación de $f$ es continua (criterios de estabilidad)

Para aprendizaje supervisado, estas condiciones pueden ser violados desde:

  1. Una clara salida no puede existir para una entrada dada.
  2. Puede que no haya suficiente información en las muestras de formación para la construcción de una única entrada-salida de la asignación (desde que se ejecuta el algoritmo de aprendizaje en diferentes muestras de formación resultados en las distintas funciones de asignación).
  3. El ruido en los datos, añade incertidumbre al proceso de reconstrucción que pueden afectar su estabilidad.

Para resolver este tipo de "mal planteado" problemas, Tikhonov propuesta de un método de regularización para estabilizar la solución mediante la inclusión de un no-negativo funcional que incorpora información previa acerca de la solución.

La forma más común de información previa implica la suposición de que la entrada-salida de la función de asignación es suave - es decir, similar entradas producen productos similares.

Tikhnov de regularización de la teoría agrega la regularización plazo para la función de costo (pérdida de la función minimizada), que incluye el parámetro de regularización $\lambda$ y supone que la forma de la asignación de $f$. El valor de $\lambda$ es elegido de entre 0 y $\infty$. Un valor de 0 implica que la solución es determinada a partir de las muestras de formación; mientras que un valor de $\infty$ implica la formación de ejemplos no son fiables.

Por lo que el parámetro de regularización $\lambda$ es seleccionado y optimizado para alcanzar el deseado equilibrio entre el modelo de sesgo y el modelo de la varianza mediante la incorporación de la cantidad correcta de información previa a ella.

Algunos ejemplos de tales regularización de las funciones de costo son:

Regresión Lineal:

$ J(\theta) = \frac 1m \sum_{i=1}^m [ h_\theta(x^i) - y^i]^2 + \frac \lambda{2m} \sum_{j=1}^n \theta_j^2 $

Regresión Logística:

$ J(\theta) = \frac 1m \sum_{i=1}^m [ -y^i log(h_\theta(x^i)) - (1-y^i)log(1 - h_\theta(x^i))] + \frac \lambda{2m} \sum_{j=1}^n \theta_j^2 $

Donde, $\theta$ son los coeficientes que hemos identificado para $x$ , e $h_\theta(x)$ es la estimación de $y$ .

La segunda suma plazo en cada ejemplo es el de la regularización plazo. Ya que este término es siempre un valor no negativo, se detiene el optimizador de llegar al mundial de los mínimos de la función de costo. La forma de la expresión que se muestra aquí es una $L_2$ regularización. Hay muchas variaciones en la forma de la regularización de la función, los que se utilizan comúnmente formas son: lazo, red elástica y regresión ridge. Estos tienen sus propias ventajas y desventajas, que ayuda a decidir donde su mejor aplicabilidad.

El efecto neto de la aplicación de la regularización es reducir la complejidad del modelo que reduce el exceso de ajuste. Otros enfoques de la regularización (no aparece en los ejemplos de arriba) se incluyen las modificaciones a los modelos estructurales, tales como la regresión y clasificación de los Árboles, impulsado árboles, etc. por el abandono de los nodos para hacer más simple de los árboles. Más recientemente, ha sido aplicado en el llamado "aprendizaje profundo" por el abandono de las conexiones entre las neuronas en una red neuronal.

Una respuesta concreta a la Q3 es que algunos ensembling métodos tales como el Bosque Aleatorio (o similares de voto esquemas) lograr la regularización debido a su inherente método, es decir, la votación y la elección de la respuesta a partir de una colección de onu-regularización de los Árboles. Aunque los árboles individuales han overfit, el proceso de "promediar" su resultado deja al conjunto de sobreajuste para el conjunto de entrenamiento.

3voto

Even Mien Puntos 10122

Pregunta 1

Yo no soy consciente de que cualquier definición canónica, y las preguntas que sugiere que este término se utiliza con diferentes significados. Vamos a empezar con ejemplos sencillos (que será la respuesta a la pregunta 2).

Pregunta 2

La cresta de regresión puede ser un buen punto de partida. Es un método de regularización que eluden la cuestión planteada por un singular de la matriz.

Sin embargo, el "parámetro de regularización" definido en el gradiente de impulsar métodos (por ejemplo) está aquí para asegurar una baja complejidad para el modelo.

Pregunta 3

La normalización como la regularización tiene otro significado (y esta terminología es bastante engañosa). Resulta un problema complejo "de la gradiente de la pendiente del punto de vista" en algo más sencillo. Aunque no es necesario calibrar de una red neuronal, lo que realmente ayuda durante la calibración. (Sin embargo, tenga en cuenta que si pudiéramos encontrar el mundial de extremos de funciones arbitrarias, la normalización no sería necesario)

Pregunta 4

Regularización (como una forma de reducir la complejidad del modelo) se utiliza para reducir overfit. El menos complejo que un modelo es, menos probable es que overfit.

A un lado

S. Watanabe hace un riguroso uso de esta terminología en su investigación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X