7 votos

¿Por qué la regularización de la magnitud del coeficiente mejora la generalización de la regresión lineal?

¿Cuál es el argumento básico sobre el cual ridge y el lazo de regresión se basa en? Me fui a través de la regularización de Tikhonov wiki en el que se menciona que

En muchos casos, tikhonov de la matriz es la matriz de identidad , dar preferencia a las soluciones con menor normas. En otros casos, filtro de paso bajo de los operadores (por ejemplo, una diferencia de operador o de un promedio ponderado de Fourier el operador) puede ser usado para imponer la suavidad si el subyacente vector se cree para ser casi continuo.

Quiero entender que por qué son soluciones con menor normas más atractivo? La suavidad puedo conseguir, pero ¿por qué más pequeñas normas?

3voto

Patrick Puntos 183

También se puede pensar de regularización por norma penalización como conceptualmente similar a la de efectos aleatorios (véase, por ejemplo, el comienzo de la sección 2 de Koenker de 2004, en particular, la primera proposición).

Dependiendo de sus antecedentes, que pueden ser más receptivos a/familiar a los argumentos que apoyan el uso de efectos aleatorios de los que apoyan el uso de la regularización.

En cualquier caso, no hay correlación entre el tipo de regularización y la estructura de los efectos aleatorios y se puede justificar el uso de uno de ellos, basándose en los argumentos de los otros.

*Cuantil de regresión para datos longitudinales; Koenker, R. (2004). Revista de Análisis Multivariante, Volumen 91, número 1, Páginas 74-89. Documento de trabajo versión aquí

2voto

Annette Puntos 11

En general, las personas usan el error en un conjunto de exclusiones como un proxy para la generalización de error. Creo que una respuesta justa es decir, si el uso de una l1 o l2 multa reducida error en la exclusión de la prueba, entonces lo que estaban haciendo era probablemente el sobreajuste.

Ahora, en cuanto a por qué funciona: para la regresión, se puede considerar una l2 pena como previa normal en los parámetros. Es decir, es directo para mostrar que

$$ \underset{ \boldsymbol{w} }{\operatorname{argmax}} \sum_{i=1}^{N} \log \mathcal{N} y_{i} | \boldsymbol{w^{T}x_{i}}, \sigma^2) + \sum_{i} \log \mathcal{N}(w_j | 0, \tau^2) $$ es un MAPA de estimación. Por lo que la mejora de una l2 norma puede ser considerada como el triunfo de pasar de un mle para un mapa de estimación. También hay algunas conexiones más profundas de la pca, que no quiero tratar de escribir en este cuadro, pero en esencia, este es un estimador de la contracción que reduce las instrucciones que nos son más inciertos acerca de $ \boldsymbol{w}$ más.

Una intuición acerca de por qué un lazo puede mejorar un modelo es, si usted tiene grupos de muy correlacionadas con las variables explicativas, el lazo puede ayudarle a colocar algunos de ellos.

0voto

mat_jack1 Puntos 209

La norma es una manera suave de obtener algunos coeficientes a cero. Si más coeficientes son cero, entonces el modelo es más parsimonioso, esperemos que permita una mejor generalización.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X