210 votos

¿Cuándo debo usar el lazo contra la cresta?

Digamos que quiero estimar un gran número de parámetros, y quiero penalizar a algunos de ellos porque creo que deberían tener poco efecto en comparación con los otros. ¿Cómo decido qué esquema de penalización utilizar? ¿Cuándo es más apropiada la regresión de cresta? ¿Cuándo debo usar el lazo?

131voto

BradC Puntos 1402

Tenga en cuenta que la regresión de la cresta no puede poner a cero los coeficientes; por lo tanto, o bien se termina incluyendo todos los coeficientes en el modelo, o ninguno de ellos. Por el contrario, el LASSO hace tanto la contracción de los parámetros como la selección de las variables de forma automática. Si algunas de sus covariables están altamente correlacionadas, puede que quiera mirar la Red Elástica [3] en lugar del LASSO.

Personalmente recomendaría usar el Garotte No-Negativo (NNG) [1] ya que es consistente en términos de estimación y selección de variables [2]. A diferencia del LASSO y la regresión de la cresta, el NNG requiere una estimación inicial que luego se reduce hacia el origen. En el documento original, Breiman recomienda la solución de mínimos cuadrados para la estimación inicial (sin embargo, es posible que desee iniciar la búsqueda a partir de una solución de regresión de cresta y utilizar algo como el GCV para seleccionar el parámetro de penalización).

En cuanto al software disponible, he implementado el NNG original en MATLAB (basado en el código FORTRAN original de Breiman). Puedes descargarlo desde:

http://www.emakalic.org/blog/wp-content/uploads/2010/04/nngarotte.zip

Por cierto, si prefieres una solución bayesiana, mira [4,5].

Referencias:

1] Breiman, L. Better Subset Regression Using the Nonnegative Garrote Technometrics, 1995, 37, 373-384

2] Yuan, M. & Lin, Y. Sobre el estimador de garrote no negativo Journal of the Royal Statistical Society (Series B), 2007, 69, 143-161

3] Zou, H. & Hastie, T. Regularización y selección de variables a través de la red elástica Journal of the Royal Statistical Society (Series B), 2005, 67, 301-320

[4] Park, T. & Casella, G. The Bayesian Lasso Journal of the American Statistical Association, 2008, 103, 681-686

[5] Kyung, M.; Gill, J.; Ghosh, M. & Casella, G. Regresión penalizada, errores estándar y análisis bayesiano de Lassos, 2010, 5, 369-412

56voto

gyurisc Puntos 4250

La cresta o el lazo son formas de regresiones lineales regularizadas. La regularización también puede interpretarse como anterior en un método de estimación máximo a posteriori. Con arreglo a esta interpretación, la cresta y el lazo hacen diferentes supuestos sobre la clase de transformación lineal que infieren para relacionar los datos de entrada y de salida. En la cresta, los coeficientes de la transformación lineal están distribuidos de forma normal y en el lazo están distribuidos de forma Laplace. En el lazo, esto hace más fácil que los coeficientes sean cero y por lo tanto más fácil eliminar algunas de sus variables de entrada como no contribuyentes a la salida.

También hay algunas consideraciones prácticas. La cresta es un poco más fácil de implementar y más rápida de computar, lo que puede importar dependiendo del tipo de datos que se tengan.

Si ha implementado ambos, utilice subconjuntos de sus datos para encontrar la cresta y el lazo y comparar lo bien que funcionan en los datos de la izquierda. Los errores deberían darte una idea de cuál usar.

39voto

Ben Puntos 1464

Generalmente, cuando se tienen muchos efectos de tamaño pequeño/mediano se debe ir con cresta. Si tienes pocas variables con un efecto mediano/grande, ve con lazo. Hastie, Tibshirani, Friedman

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X