La regularización se emplea en casi todos los algoritmos de aprendizaje automático donde estamos tratando de aprender de muestras finitas de los datos de entrenamiento.
Voy a intentar indirectamente responder a sus preguntas específicas mediante la explicación de la génesis del concepto de regularización. Toda la teoría es mucho más detallada y esta explicación no debe ser interpretado como completo, pero su intención de simplemente apuntar en la dirección correcta para una mayor exploración. Ya que su objetivo principal es conseguir una intuitiva comprensión de regularización, he resumir y simplificar enormemente la siguiente explicación del Capítulo 7 de "Redes Neuronales y el Aprendizaje de Máquinas", 3ª edición por Simon Haykin (y omite algunos detalles mientras lo hace).
Permite revisar el aprendizaje supervisado problema con las variables independientes $x_i$ y la variable dependiente $y_i$ como tratando de encontrar una función de $f$ que será capaz de "mapa" de la entrada X salida Y.
Para llevar esto más lejos, permite entender Hadamard de la terminología de un "bien planteado" problema - un problema bien planteado si satisface las siguientes tres condiciones:
- Para cada entrada,$x_i$, y la salida de $y_i$ existe.
- Por un par de entradas de $x_1$ y $x_2$, $f(x_1) = f(x_2)$ si y sólo si $x_1 = x_2$.
- La asignación de $f$ es continua (criterios de estabilidad)
Para aprendizaje supervisado, estas condiciones pueden ser violados desde:
- Una clara salida no puede existir para una entrada dada.
- Puede que no haya suficiente información en las muestras de formación para la construcción de una única entrada-salida de la asignación (desde que se ejecuta el algoritmo de aprendizaje en diferentes muestras de formación resultados en las distintas funciones de asignación).
- El ruido en los datos, añade incertidumbre al proceso de reconstrucción que pueden afectar su estabilidad.
Para resolver este tipo de "mal planteado" problemas, Tikhonov propuesta de un método de regularización para estabilizar la solución mediante la inclusión de un no-negativo funcional que incorpora información previa acerca de la solución.
La forma más común de información previa implica la suposición de que la entrada-salida de la función de asignación es suave - es decir, similar entradas producen productos similares.
Tikhnov de regularización de la teoría agrega la regularización plazo para la función de costo (pérdida de la función minimizada), que incluye el parámetro de regularización $\lambda$ y supone que la forma de la asignación de $f$.
El valor de $\lambda$ es elegido de entre 0 y $\infty$. Un valor de 0 implica que la solución es determinada a partir de las muestras de formación; mientras que un valor de $\infty$ implica la formación de ejemplos no son fiables.
Por lo que el parámetro de regularización $\lambda$ es seleccionado y optimizado para alcanzar el deseado equilibrio entre el modelo de sesgo y el modelo de la varianza mediante la incorporación de la cantidad correcta de información previa a ella.
Algunos ejemplos de tales regularización de las funciones de costo son:
Regresión Lineal:
$ J(\theta) = \frac 1m \sum_{i=1}^m [ h_\theta(x^i) - y^i]^2 + \frac \lambda{2m} \sum_{j=1}^n \theta_j^2 $
Regresión Logística:
$ J(\theta) = \frac 1m \sum_{i=1}^m [ -y^i log(h_\theta(x^i)) - (1-y^i)log(1 - h_\theta(x^i))] + \frac \lambda{2m} \sum_{j=1}^n \theta_j^2 $
Donde, $\theta$ son los coeficientes que hemos identificado para $x$ , e $h_\theta(x)$ es la estimación de $y$ .
La segunda suma plazo en cada ejemplo es el de la regularización plazo. Ya que este término es siempre un valor no negativo, se detiene el optimizador de llegar al mundial de los mínimos de la función de costo. La forma de la expresión que se muestra aquí es una $L_2$ regularización. Hay muchas variaciones en la forma de la regularización de la función, los que se utilizan comúnmente formas son: lazo, red elástica y regresión ridge. Estos tienen sus propias ventajas y desventajas, que ayuda a decidir donde su mejor aplicabilidad.
El efecto neto de la aplicación de la regularización es reducir la complejidad del modelo que reduce el exceso de ajuste. Otros enfoques de la regularización (no aparece en los ejemplos de arriba) se incluyen las modificaciones a los modelos estructurales, tales como la regresión y clasificación de los Árboles, impulsado árboles, etc. por el abandono de los nodos para hacer más simple de los árboles. Más recientemente, ha sido aplicado en el llamado "aprendizaje profundo" por el abandono de las conexiones entre las neuronas en una red neuronal.
Una respuesta concreta a la Q3 es que algunos ensembling métodos tales como el Bosque Aleatorio (o similares de voto esquemas) lograr la regularización debido a su inherente método, es decir, la votación y la elección de la respuesta a partir de una colección de onu-regularización de los Árboles. Aunque los árboles individuales han overfit, el proceso de "promediar" su resultado deja al conjunto de sobreajuste para el conjunto de entrenamiento.