3 votos

Desafíos en la interpretación de la selección de variables a partir de LASSO y OLS

Trabajo como consultor y a menudo me enfrento a variables selección de variables y problemas de predicción.

Para mis clientes, ejecuto OLS y recientemente estoy presionando para penalizado que pueden manejar la selección de variables mejor que OLS.

Conozco el funcionamiento del LASSO Su objetivo es reducir los coeficientes a cero y puede identificar los coeficientes no nulos. Observando las trayectorias de solución, puedo entender cómo se produce la selección de variables.

Sin embargo, trabajo con personas que no son estadísticos. Se sienten bastante cómodos con MCO y también he observado que explicar OLS a mis clientes suele ser más sencillo. Mi pregunta es la siguiente

Sé que esta no es la forma de hacer la selección de variables. Digamos que mis resultados OLS el siguiente modelo. He escalado mi respuesta y predictores.

$Y = 0.25~X_{1} + 0.95~X_{2} + 0.65~X_{3} +2 ~ X_{4} + 0.1 ~X_{5} $

Mis amigos no estadísticos dicen que deberíamos seleccionar $X_{2}$ y $X_{4}$ en el modelo. Lo dicen observando dos aspectos:

  1. Los valores de sus coeficientes son elevados en comparación con las demás variables
  2. La salida del modelo también muestra que estos 2 coeficientes son significativos (por significativo me refiero a un valor p < 0,05).

En conclusión, dicen que el modelo reducido $Y = 0.95~X_{2} + 2~X_{4}$ es suficiente.

No sé cómo explicar que ésta no es la forma correcta de proceder en la selección de variables. De hecho a veces también pasan por alto el hecho de que $X_{1}$ es una variable significativa. Pero creen que no es importante porque el valor de su coeficiente no es de gran magnitud.

Lo que no soy capaz de explicar y reconozco que a veces ni yo mismo entiendo

  1. Sé interpretar los coeficientes. Por ejemplo, manteniendo todas las demás variables constantes, un cambio unitario en $X_{4}$ causará un doble en la respuesta. Pero ¿cómo se puede concluir que $X_{4}$ ¿es IMPORTANTE su magnitud y el hecho de que su valor p sea < 0,05?

¿Podría alguien ayudar con esto? Si es que $X_{2}$ y $X_{4}$ son IMPORTANTE debería decir que deberíamos comparar dos modelos y realizar algún tipo de procedimiento de falta de ajuste para comprobar esta afirmación.

  1. $Y = \beta_{1}~X_{1} + \beta_{2}~X_{2} + \beta_{3}~X_{3} +\beta_{4}~X_{4} $
  2. $Y = \beta_{2}~X_{2} + \beta_{4}~X_{4} $

Por último, si no me equivoco, los métodos de contracción como LASSO y ridge realizan la selección de variables teniendo en cuenta algún objetivo final, como minimizar el error medio absoluto de predicción. OLS sólo minimiza la suma del error al cuadrado, pero ¿cómo se puede simplemente seleccionar variables en un modelo simplemente porque sus coeficientes son altos en magnitud.

Si sólo nos fijamos en los valores de los coeficientes para seleccionar las variables que entran en el modelo, ¿no estaremos ignorando la estructura de correlación del predictor predictoras.

5voto

EdM Puntos 5716

El siguiente paso en el trabajo con sus clientes u otros no estadísticos sería ayudarles a comprender los supuestos y las limitaciones de MCO, especialmente en la aplicación a datos del mundo real con predictores correlacionados.

Uno de los problemas es el sesgo de las variables omitidas. @Gung respuesta en esta página de Cross Validated lo explica muy bien. Si, en un modelo, se añade (o sustrae) una variable que está correlacionada en la muestra de datos con el resultado y con otros predictores, los coeficientes de regresión de otras variables cambiarán. Es importante intentar, de forma inteligente, mantener todos los predictores relevantes en un modelo. Para ser justos con sus colegas no estadísticos, el salto de centrarse en coeficientes de gran magnitud (para predictores estandarizados) podría tener sentido si no hubiera correlaciones entre los predictores. ¿Cuándo fue la última vez que vio un caso así en la práctica?

Un segundo problema es que los intentos de seleccionar variables automáticamente (que es lo que se hace al elegir las variables con los coeficientes más altos) acaban con graves problemas, como se discute ampliamente en esta página con validación cruzada . En particular, es posible que encuentre las variables cuya relación con el resultado es fuerte en la presente muestra de datos pero es poco probable que lo hagan tan bien en muestras posteriores. @Gung tiene de nuevo una respuesta muy útil en esa página que explica este problema del dragado de datos mucho mejor que yo.

En tercer lugar, si sus clientes quieren utilizar el modelo para la predicción, entonces está bastante claro que el rendimiento mejorará si incluye tantas variables como sea posible, incluso aquellas que no cumplan algún criterio de "significación" estadística. Esta página Cross Validated es uno de los varios que cubren este tema. Por supuesto, hay que tener cuidado para evitar el sobreajuste. Estoy de acuerdo con la respuesta de @DikranMarsupial, que recomienda utilizar la regresión ridge para evitar el sobreajuste. Si repites LASSO en múltiples muestras bootstrap del mismo conjunto de datos, es probable que encuentres muchos conjuntos diferentes de variables seleccionadas. Ese resultado puede ser más difícil de explicar a tus colegas no estadísticos que simplemente decir que estás ponderando a la baja algunas variables para evitar el sobreajuste, como con la regresión ridge.

Con respecto a su comprensión de LASSO y la regresión de cresta, en realidad minimizan el error cuadrático medio, no el error de predicción absoluto medio, pero sujeto a restricciones en las magnitudes de los coeficientes. La restricción sobre las magnitudes de los coeficientes es la razón por la que es importante empezar con predictores estandarizados, para que las diferencias de escalas de las variables no influyan en los resultados. La diferencia está en las restricciones sobre los coeficientes: es la suma de magnitudes absolutas en LASSO, y la suma de sus cuadrados en ridge. Así, LASSO selecciona un subconjunto (y penaliza sus coeficientes para que sean de magnitud inferior a la que se obtendría en el modelo MCO correspondiente), mientras que ridge pondera diferencialmente todos los predictores, tendiendo a tratar juntos a los predictores correlacionados. Introducción al aprendizaje estadístico es un buen lugar para obtener más información.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X