8 votos

Regresión Ridge y LASSO, ¿por qué sería mejor más pequeño $\beta$?

Cualquier persona puede proporcionar una vista intuitiva en ¿por qué es mejor tener menor beta?

Para LASSO puedo entender que hay un componente de selección de función aquí. Menos características que el modelo más simple y por lo tanto menos probable que se ajuste demasiado.

Sin embargo, para el canto, se mantienen todas las características (factores). Sólo los valores son más pequeños (en el sentido de la norma de L2). ¿Cómo esto hace el modelo más simple?

¿Cualquier persona puede proporcionar una vista intuitiva en esto?

11voto

Michael Oberst Puntos 176

TL;DR - el Mismo principio se aplica tanto a LASSO y Ridge

Menos características que el modelo más simple y por lo tanto menos probabilidad de estar sobre-ajuste

Esta es la misma intuición con cresta de regresión, podemos evitar que el modelo de sobre-ajuste de los datos, pero en lugar de apuntar a los pequeños, potencialmente falsos variables (que reducirse a cero en LAZO), que en lugar de destino de los mayores coeficientes de que podría estar exagerando el caso para sus respectivas variables.

El L2 pena generalmente impide el modelo de la colocación de "mucha" importancia en cualquier variable, debido a que las grandes coeficientes son penalizados más que los pequeños.

Esto puede no parecer como que "simplifica" el modelo, pero no es una tarea similar de prevenir el modelo de más ajustada a los datos en la mano.

Un ejemplo para construir la intuición

Tomar un ejemplo concreto - usted podría estar tratando de predecir readmisiones al hospital basado en las características del paciente.

En este caso, usted podría tener una enfermedad relativamente rara variable (como una enfermedad poco frecuente) que pasa a ser muy altamente correlacionados en su conjunto de entrenamiento con la readmisión. En un conjunto de datos de 10.000 pacientes, sólo se puede ver esta enfermedad 10 veces, con 9 reingresos (un ejemplo extremo para estar seguro)

Como resultado, el coeficiente puede ser enorme relativa al coeficiente de otras variables. Minimizando tanto el MSE y la L2 pena, este sería un buen candidato para la regresión ridge para "reducir" hacia un menor valor, ya que es raro (por lo que no es de impacto MSE como mucho), y una extrema coeficiente de valor.

4voto

throwaway Puntos 18

No hay ninguna garantía de que con pequeñas pesas es realmente mejor. Lazo y la cresta de regresión de trabajo mediante la imposición de un conocimiento previo/supuestos/limitaciones en la solución. Este enfoque funciona bien si el estado de la/supuestos/restricciones que se adapta bien a la distribución real que genera los datos, y puede que no funcione bien lo contrario. Con respecto a la simplicidad/complejidad, no es de los modelos que son más simples o más complejas. Más bien, es la familia de modelos en estudio.

Desde una perspectiva geométrica, el lazo y la cresta de regresión imponer restricciones en las pesas. Por ejemplo, el común de la pena/de Lagrange forma de cresta de regresión:

$$\min_\beta \|y - X\beta\|_2^2 + \lambda \|\beta\|_2^2$$

puede ser re-escrita en el equivalente de la restricción de la forma:

$$\min_\beta \|y - X\beta\|_2^2 \quad \text{s.t. } \|\beta\|_2^2 \le c$$

Esto deja claro que cresta de regresión restringe las ponderaciones que se encuentran dentro de un hypersphere cuyo radio se rige por el parámetro de regularización. Del mismo modo, el lazo restringe las ponderaciones que se encuentran dentro de un polytope cuyo tamaño se rige por el parámetro de regularización. Estas restricciones significa que la mayoría de la original espacio en el parámetro está fuera de límites, y la búsqueda de los pesos óptimos dentro de un mucho menor subespacio. Este menor subespacio puede ser considerado menos "complejo" que el del espacio.

Desde una perspectiva Bayesiana, uno puede pensar acerca de la posterior distribución a través de todas las opciones posibles de pesos. Ambos lazo y la cresta de regresión son equivalentes a MAPA de estimación después de la colocación de un previo en los pesos (lazo utiliza un Laplaciano antes y la cresta de regresión utiliza una Gaussiana antes). Un estrecho posterior corresponde a una mayor restricción y una menor complejidad, debido a los altos posterior de la densidad se da a un pequeño conjunto de parámetros. Por ejemplo, la multiplicación de la probabilidad de la función por un estrecho de Gauss antes de (que corresponde a una gran cresta de la pena), que produce una más estrecha posterior.

Una de las principales razones para imponer restricciones/priores es que la elección de la modelo óptimo de forma más restringida de la familia, es menos probable que overfit que la elección de un menos restringido de la familia. Esto es debido a que el menos restringido de la familia proporciona más maneras para que se ajuste a los datos, y es cada vez más probable que uno de ellos será capaz de adaptarse a las fluctuaciones al azar en el conjunto de entrenamiento. Para un tratamiento más formales, ver el sesgo y la varianza de equilibrio. Esto no necesariamente significa que la elección de un modelo a partir de una más restringida que la familia funcione bien. Conseguir un buen rendimiento requiere que la restricción de la familia en realidad contiene buenos modelos. Esto significa que tenemos que elegir un antes/restricción que coinciden con el tipo específico de problema a la mano.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X