Trabajo como consultor y a menudo me enfrento a variables selección de variables y problemas de predicción.
Para mis clientes, ejecuto OLS y recientemente estoy presionando para penalizado que pueden manejar la selección de variables mejor que OLS.
Conozco el funcionamiento del LASSO Su objetivo es reducir los coeficientes a cero y puede identificar los coeficientes no nulos. Observando las trayectorias de solución, puedo entender cómo se produce la selección de variables.
Sin embargo, trabajo con personas que no son estadísticos. Se sienten bastante cómodos con MCO y también he observado que explicar OLS a mis clientes suele ser más sencillo. Mi pregunta es la siguiente
Sé que esta no es la forma de hacer la selección de variables. Digamos que mis resultados OLS el siguiente modelo. He escalado mi respuesta y predictores.
$Y = 0.25~X_{1} + 0.95~X_{2} + 0.65~X_{3} +2 ~ X_{4} + 0.1 ~X_{5} $
Mis amigos no estadísticos dicen que deberíamos seleccionar $X_{2}$ y $X_{4}$ en el modelo. Lo dicen observando dos aspectos:
- Los valores de sus coeficientes son elevados en comparación con las demás variables
- La salida del modelo también muestra que estos 2 coeficientes son significativos (por significativo me refiero a un valor p < 0,05).
En conclusión, dicen que el modelo reducido $Y = 0.95~X_{2} + 2~X_{4}$ es suficiente.
No sé cómo explicar que ésta no es la forma correcta de proceder en la selección de variables. De hecho a veces también pasan por alto el hecho de que $X_{1}$ es una variable significativa. Pero creen que no es importante porque el valor de su coeficiente no es de gran magnitud.
Lo que no soy capaz de explicar y reconozco que a veces ni yo mismo entiendo
- Sé interpretar los coeficientes. Por ejemplo, manteniendo todas las demás variables constantes, un cambio unitario en $X_{4}$ causará un doble en la respuesta. Pero ¿cómo se puede concluir que $X_{4}$ ¿es IMPORTANTE su magnitud y el hecho de que su valor p sea < 0,05?
¿Podría alguien ayudar con esto? Si es que $X_{2}$ y $X_{4}$ son IMPORTANTE debería decir que deberíamos comparar dos modelos y realizar algún tipo de procedimiento de falta de ajuste para comprobar esta afirmación.
- $Y = \beta_{1}~X_{1} + \beta_{2}~X_{2} + \beta_{3}~X_{3} +\beta_{4}~X_{4} $
- $Y = \beta_{2}~X_{2} + \beta_{4}~X_{4} $
Por último, si no me equivoco, los métodos de contracción como LASSO y ridge realizan la selección de variables teniendo en cuenta algún objetivo final, como minimizar el error medio absoluto de predicción. OLS sólo minimiza la suma del error al cuadrado, pero ¿cómo se puede simplemente seleccionar variables en un modelo simplemente porque sus coeficientes son altos en magnitud.
Si sólo nos fijamos en los valores de los coeficientes para seleccionar las variables que entran en el modelo, ¿no estaremos ignorando la estructura de correlación del predictor predictoras.