Loading [MathJax]/jax/element/mml/optable/BasicLatin.js

2 votos

Ajuste de modelos por mínimos cuadrados frente a ajuste por contracción

¿Cuál es la diferencia entre el enfoque de ajuste de modelos por mínimos cuadrados y por contracción en el contexto de la selección de modelos? En https://www.youtube.com/watch?v=QlyROnAjnEk el autor en la instancia [0:28] del vídeo dice - "La selección de subconjuntos utiliza métodos de ajuste por mínimos cuadrados y de contracción, ya que Lasso utiliza el enfoque de contracción para ajustar el modelo". ¿Cuál es la diferencia?

2voto

Earl Ruby Puntos 31

Suponga que tiene yRn y XRn×p , n>p . La selección del mejor subconjunto resuelve el siguiente problema de minimización

min

donde \|u\|^2_n = \langle u,u \rangle /n y \|\beta\|_0 cuenta el número total de coeficientes distintos de cero. Se resuelve ejecutando todas las regresiones posibles con todas las combinaciones de diferentes covariables (en total 2^p ) y clasificar las soluciones utilizando algún criterio (por ejemplo, el criterio de información de Akaike, AIC, o el criterio de información bayesiano, BIC). Por desgracia, cuando p>n el problema no es convexo y es muy difícil resolverlo -o al menos resolverlo exactamente- en tiempo polinómico. Dicho de otro modo, se tardará siglos en calcular todas las soluciones posibles.

LASSO es una relajación convexa del problema no convexo de selección del mejor subconjunto de la ecuación (1) y se utiliza mucho en muchas aplicaciones de alta dimensión. Resuelve (en forma lagrangiana)

\qquad \qquad \qquad \qquad \qquad \min_{\beta \in \mathbf{R^p}} \|y-X\beta\|^2_n + \lambda\|\beta\|_1 \qquad (2)

donde \lambda>0 es un término de penalización que regula la fuerza de la contracción, y \|.\|_1 es el \ell_1 norma. Resulta que para \lambda obtenemos soluciones dispersas al problema, es decir, algunas \beta son cero y por lo tanto realizamos la selección de variables. Nótese que como (2) es convexo podemos resolverlo y hay formas muy rápidas de hacerlo. (1) y (2) son problemas diferentes, aunque en la práctica funcionan de forma similar (depende de tus datos). Puede consultar los libros de Tibshirani, Friedman, Hastie y otros, por ejemplo Elements of Statistical Learning, para más discusiones y ejemplos.

Algunas referencias de los principales documentos:

LASSO (menciona también las diferencias entre (1) y (2):

Tibshirani, R. (2011). Regression shrinkage and selection via the lasso: a retrospective. Revista de la Real Sociedad Estadística: Serie B (Metodología estadística), 73(3), 273-282.

Algoritmo rápido para LASSO:

Friedman, J., Hastie, T., Höfling, H., & Tibshirani, R. (2007). Pathwise coordinate optimization. Annals of Applied Statistics, 1(2), 302-332.

Comparación entre (1) y (2):

Hastie, T., Tibshirani, R., & Tibshirani, R. J. (2017). Extended comparisons of best subset selection, forward stepwise selection, and the lasso. arXiv preprint arXiv:1707.08692.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X