35 votos

¿Por qué son consecuencia más pequeños pesos en modelos más simples de regularización?

He completado Andrew Ng, de la Máquina de Aprendizaje curso alrededor de hace un año, y ahora estoy escribiendo mi Escuela secundaria de Matemáticas de la exploración sobre el funcionamiento de la Regresión Logística y técnicas para optimizar el rendimiento. Una de estas técnicas es, por supuesto, la regularización.

El objetivo de la regularización es para evitar el sobreajuste por la ampliación de la función de costo para incluir el objetivo del modelo de sencillez. Podemos lograr esto al penalizar el tamaño de pesos mediante la adición de la función de coste de cada uno de los pesos al cuadrado, multiplicado por algunos de regularización paramater.

Ahora, la Máquina algoritmo de Aprendizaje, el objetivo será reducir el tamaño de las pesas, pero manteniendo la precisión en el conjunto de entrenamiento. La idea es que vamos a llegar a algún punto en el medio donde se puede producir un modelo que generaliza en los datos y no tratar de encajar en todo el ruido estocástico por ser menos complejo.

Mi confusión es por qué penalizamos el tamaño de las pesas? ¿Por qué los pesos mayores a crear modelos más complejos, y más pequeños pesos crear más simple/el más suave de los modelos? Andrew Ng, de las reclamaciones en su conferencia que la explicación es difícil de enseñar, pero supongo que estoy buscando esta explicación ahora.

Prof. Ng hecho dar un ejemplo de cómo la nueva función de coste puede causar que el peso de características (es decir. x^3 y x^4) tienden a cero, por lo que el modelo de licenciatura es reducido, pero esto no crea una explicación más completa.

Mi intuición es que las pequeñas pesas tienden a ser más "aceptable" en funciones con el mayor de los exponentes de los más pequeños exponentes (debido a que las características con pequeñas pesas que son como la base de la función). Menor pesos implica menor "contribuciones" a las características con las de orden superior. Pero esta intuición no es muy concreto.

11voto

Nick Demyanchuk Puntos 441

No estoy seguro de si realmente saben de qué estoy hablando, pero voy a darle un tiro. No es tanto tener pequeñas pesas que impide el sobreajuste (creo), es más el hecho de que la regularización de más fuertemente reduce el espacio de modelo. De hecho, usted puede regularizar alrededor de 10000000 si quería tomar la norma L2 de sus valores de X menos un vector de 10000000s. Esto también reduciría el sobreajuste (por supuesto, también debe tener algún fundamento detrás de hacer que (es decir, tal vez sus valores Y se 10000000 veces más grande que la suma de los valores de X, pero en realidad nadie lo hace porque simplemente puede cambiar la escala de los datos).

El sesgo y la varianza son tanto una función de la complejidad del modelo. Esto se relaciona con la VC de la teoría, para mirar eso. El más grande es el espacio de posibles modelos (es decir, los valores de todos los parámetros pueden tomar, básicamente), lo más probable es que el modelo de overfit. Si tu modelo se puede hacer de todo, desde ser una línea recta a mover en todas las direcciones como una onda sinusoidal que también puede ir hacia arriba y hacia abajo, es mucho más probable para recoger y modelo de las perturbaciones aleatorias de los datos, que no es un resultado de la subyacente de la señal sino el resultado de un solo golpe de suerte en ese conjunto de datos (esta es la razón por la obtención de más datos de ayuda de sobreajuste pero no underfitting).

Cuando regularizar, básicamente, se reduce el espacio de modelo. Esto no significa necesariamente más suave/halagar funciones tienen un mayor sesgo y varianza menor. Pensar en un modelo lineal que se superpone con una onda sinusoidal que se limita a tener una muy pequeña amplitud de las oscilaciones que básicamente no hace nada (es básicamente una difusa línea). Esta función es super floja en un sentido, pero sólo overfits poco más de una regresión lineal. La razón por la suave/halagar funciones tienden a tener mayor sesgo y varianza menor es porque nosotros, como científico de datos se supone que si tenemos una muestra reducida de espacio nos gustaría mucho más por la navaja de occam mantener los modelos que son más suaves y más y tirar los modelos que se ondulante y oscilante en todo el lugar. Tiene sentido tirar ondulada de los modelos de primera, que es la razón por la suave modelos tienden a ser más propensos a underfitting y no sobreajuste.

Regularización como la regresión ridge, reduce el espacio de modelo, porque hace que sea más caro para estar más lejos de cero (o cualquier número). Así que cuando el modelo se enfrenta a una elección de tomar en cuenta una pequeña perturbación en los datos, es más probable que errar por el lado de que no, debido a que (en general) aumentar su valor de parámetro. Si que la perturbación es debido al azar (es decir, uno de sus variables x sólo tenía una ligera azar correlación con su y variables) que el modelo no toma en cuenta frente a un no-regularización de la regresión debido a la no regularización de la regresión no tiene ningún costo asociado con el aumento de la beta tamaños. Sin embargo, si que la perturbación es debido a la señal real, su regularización de la regresión más probable es que no se cual es la razón por la que tiene mayor sesgo (y por qué hay una varianza sesgo de equilibrio).

6voto

adam Puntos 400

Si el uso de regularización no sólo minimizar el error de muestreo, sino $OutOfSampleError \le InSampleError + ModelComplexityPenalty$.

Más precisamente, $J_{aug}(h(x),y,\lambda,\Omega)=J(h(x),y)+\frac{\lambda}{2m}\Omega$ para una hipótesis de $h \in H$ donde $\lambda$ es algún parámetro, generalmente $\lambda \in (0,1)$, $m$ es el número de ejemplos del conjunto de datos, y $\Omega$ es una pena que depende de los pesos $w$, $\Omega=w^Tw$. Esto se conoce como la aumentada de error. Ahora, sólo se puede minimizar la función de arriba, si los pesos son bastante pequeñas.

Aquí hay algunos R código de juguete con

w <- c(0.1,0.2,0.3)
out <- t(w) %*% w
print(out)

Así, en lugar de penalizar a todo el espacio de hipótesis $H$, penalizamos cada una de las hipótesis de $h$ individualmente. A veces nos referimos a la hipótesis de $h$ por su peso vector $w$.

En cuanto a por qué pequeñas pesas que ir junto con la baja modelo complexitity, veamos la siguiente hipótesis: $h_1(x)=x_1 \times w_1 + x_2 \times w_2 + x_3 \times w_3$. En total tenemos tres activo parámetros de peso ${w_1,\dotsc,w_3}$. Ahora, vamos a configurar $w_3$ a un muy, muy pequeño valor, $w_3=0$. Esto reduce la complejidad del modelo a: $h_1(x)=x_1 \times w_1 + x_2 \times w_2$. En lugar de tres parámetros de peso sólo teníamos dos restantes.

1voto

spdrnl Puntos 959

Una simple intuición es la siguiente. Recuerde que para la regularización de las características que deben ser estandarizados con el fin de tener aprox. la misma escala.

Digamos que la minimización de la función es sólo la suma de los cuadrados de los errores:

$SSE$

La adición de más características es probable que reducir esta $SSE$, especialmente si está seleccionada la función de un ruidoso de la piscina. La función de probabilidad se reduce el $SSE$, lo que en el sobreajuste.

Ahora considere la posibilidad de regularización, LAZO en este caso. Las funciones a ser minimizada es entonces

$SSE + \lambda \Sigma |\beta|$

La adición de una característica extra que ahora los resultados en un extra de pena: la suma absoluta de los coeficientes se hace más grande! La reducción de la ESS debe pesar más el añadido extra de la pena. No es posible añadir características adicionales sin costo.

La combinación de la función de la normalización y la penalización de la suma absoluta de los coeficientes restringe el espacio de búsqueda, que conduce a menos de sobreajuste.

Ahora LAZO:

$SSE + \lambda \Sigma |\beta|$

tiende a poner los coeficientes a cero, mientras que la regresión ridge:

$SSE + \lambda \Sigma \beta^2$

tiende a reducir los coeficientes de forma proporcional. Esto puede ser visto como un efecto secundario del tipo de penalización de la función. La imagen de abajo ayuda con esto:

enter image description here

La regularización de la función de penalización en la práctica le da un 'presupuesto' para los parámetros, como la de la foto de arriba por el cian área.

Ver que a la izquierda, el LAZO, el $SSE$ función es probable que golpeó el espacio en un eje; el establecimiento de uno de los coeficientes a cero, y dependiendo del presupuesto de la reducción de los otros. A la derecha de la función puede golpear de los ejes, más o menos difusión del presupuesto de los parámetros: que conduce a la contracción de ambos parámetros.

Imagen tomada de https://onlinecourses.science.psu.edu/stat857/node/158

Resumiendo: regularización penaliza la adición de parámetros adicionales, y dependiendo del tipo de regularización se reducirá todos los coeficientes (ridge), o se establece un número de coeficientes a 0, mientras que el mantenimiento de los otros coeficientes de la medida que el presupuesto lo permite (el lazo)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X