¿Por qué la regularización de la magnitud del coeficiente mejora la generalización de la regresión lineal?

Question

¿Por qué la regularización de la magnitud del coeficiente mejora la generalización de la regresión lineal?

Preguntado el 11 de Julio, 2013: Cuando se hizo la pregunta
460 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

¿Cuál es el argumento básico sobre el cual ridge y el lazo de regresión se basa en? Me fui a través de la regularización de Tikhonov wiki en el que se menciona que

En muchos casos, tikhonov de la matriz es la matriz de identidad , dar preferencia a las soluciones con menor normas. En otros casos, filtro de paso bajo de los operadores (por ejemplo, una diferencia de operador o de un promedio ponderado de Fourier el operador) puede ser usado para imponer la suavidad si el subyacente vector se cree para ser casi continuo.

Quiero entender que por qué son soluciones con menor normas más atractivo? La suavidad puedo conseguir, pero ¿por qué más pequeñas normas?

Preguntado el 11 de Julio, 2013 por jgindin

Answer 1

3 Respuestas

Answer 2

3voto

Patrick Puntos 183

También se puede pensar de regularización por norma penalización como conceptualmente similar a la de efectos aleatorios (véase, por ejemplo, el comienzo de la sección 2 de Koenker de 2004, en particular, la primera proposición).

Dependiendo de sus antecedentes, que pueden ser más receptivos a/familiar a los argumentos que apoyan el uso de efectos aleatorios de los que apoyan el uso de la regularización.

En cualquier caso, no hay correlación entre el tipo de regularización y la estructura de los efectos aleatorios y se puede justificar el uso de uno de ellos, basándose en los argumentos de los otros.

*Cuantil de regresión para datos longitudinales; Koenker, R. (2004). Revista de Análisis Multivariante, Volumen 91, número 1, Páginas 74-89. Documento de trabajo versión aquí

Respondido el 12 de Julio, 2013 por Patrick (183 Puntos )

Answer 3

2voto

Annette Puntos 11

En general, las personas usan el error en un conjunto de exclusiones como un proxy para la generalización de error. Creo que una respuesta justa es decir, si el uso de una l1 o l2 multa reducida error en la exclusión de la prueba, entonces lo que estaban haciendo era probablemente el sobreajuste.

Ahora, en cuanto a por qué funciona: para la regresión, se puede considerar una l2 pena como previa normal en los parámetros. Es decir, es directo para mostrar que

$$ \underset{ \boldsymbol{w} }{\operatorname{argmax}} \sum_{i=1}^{N} \log \mathcal{N} y_{i} | \boldsymbol{w^{T}x_{i}}, \sigma^2) + \sum_{i} \log \mathcal{N}(w_j | 0, \tau^2) $$ es un MAPA de estimación. Por lo que la mejora de una l2 norma puede ser considerada como el triunfo de pasar de un mle para un mapa de estimación. También hay algunas conexiones más profundas de la pca, que no quiero tratar de escribir en este cuadro, pero en esencia, este es un estimador de la contracción que reduce las instrucciones que nos son más inciertos acerca de $ \boldsymbol{w}$ más.

Una intuición acerca de por qué un lazo puede mejorar un modelo es, si usted tiene grupos de muy correlacionadas con las variables explicativas, el lazo puede ayudarle a colocar algunos de ellos.

Respondido el 12 de Julio, 2013 por Annette (11 Puntos )

Answer 4

0voto

mat_jack1 Puntos 209

La norma es una manera suave de obtener algunos coeficientes a cero. Si más coeficientes son cero, entonces el modelo es más parsimonioso, esperemos que permita una mejor generalización.

Respondido el 11 de Julio, 2013 por mat_jack1 (209 Puntos )

¿Por qué la regularización de la magnitud del coeficiente mejora la generalización de la regresión lineal?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Por qué la regularización de la magnitud del coeficiente mejora la generalización de la regresión lineal?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: