7 votos

El coeficiente de Lasso para algunas características es mayor que el coeficiente de regresión lineal

Estoy utilizando la Regularización Lasso para evitar el sobreajuste y la multicolinealidad entre dos características (X1 y X2), ahora que tengo 14 características independientes. Obtuve buenos resultados para algunas características, Lasso fue capaz de reducir el coeficiente a 0, pero para otras características el coeficiente de regresión lineal fue menor que Lasso (lo mismo para Ridge).

lr = LinearRegression()
lr.fit(X, Y)
lr_coeff = lr.coef_
lr_intercept = lr.intercept_

lasso = Lasso(alpha=10)
lasso.fit(X, Y)
lasso_coeff = lasso.coef_
lasso_intercept = lasso.intercept_

Resultado:

    lr_coeff  lr_intercept  lasso_coeff  lasso_intercept
0   0.968567      16.01858     0.000000       103.471224
1   1.743420      16.01858     1.730920       103.471224
2   5.221518      16.01858     3.931450       103.471224
3   4.769328      16.01858     3.186003       103.471224
4   6.341612      16.01858     4.265931       103.471224
5   2.272504      16.01858     1.277541       103.471224
6   3.104016      16.01858     1.648253       103.471224
7   1.418943      16.01858     0.667189       103.471224
8   1.144834      16.01858     0.000000       103.471224
9   0.138457      16.01858     0.000000       103.471224
10  1.272995      16.01858     0.693323       103.471224
11  0.188450      16.01858     0.503958       103.471224
12 -2.334245      16.01858    -0.167953       103.471224
13 -0.475823      16.01858     0.124608       103.471224
14  0.489548      16.01858     0.512034       103.471224

Sinceramente,

13voto

icelava Puntos 548

Como Notas de German Demidov Esto está perfectamente bien. El Lazo reducirá algunos de sus coeficientes a cero, pero no tiene la propiedad de reducir todo coeficientes en comparación con la estimación OLS. Más bien, puede aumentar algunos coeficientes para "compensar" los que ha reducido. No hay nada de qué preocuparse. (Sin embargo, es una muy buena pregunta).

8voto

user164061 Puntos 281

Los coeficientes de Lasso pueden reducirse de nuevo mientras se acerca a la solución OLS.

Véase, por ejemplo: ¿Por qué en la dirección conjunta de mínimos cuadrados es posible que algunos coeficientes disminuyan en la regresión LARS?

Aquí se muestra una imagen de la relación entre los coeficientes y el error. El lazo equilibra el error (representado por la superficie verde) y el tamaño de los coeficientes (la superficie roja). Para una cantidad determinada de regularización, es posible que algunos parámetros se "sobrepasen" y sean mayores que el OLS real. Si estos parámetros son más grandes, otros parámetros serán más bajos.

intuitive view of lasso path

Esta situación se da cuando un parámetro puede tomar el papel de varios otros. En ese caso, inicialmente este parámetro podrá modelar muy bien el resultado incluso con un coeficiente pequeño (y que esté por encima del verdadero coeficiente del modelo), pero si se permite que el total de coeficientes sea mayor, entonces los otros pueden alcanzarlo.

Una clara ilustración de este principio está en esta pregunta en la que un coeficiente que debe ser cero es inicialmente positivo . Esto ocurre porque el parámetro modela el resultado mejor que el modelo verdadero cuando la penalización es alta: ¿Es Ridge más robusto que Lasso en la selección de características?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X