Tengo una gran matriz de correlaciones en Excel que me gustaría utilizar para fundamentar mi elección de variables explicativas en un modelo de regresión lineal múltiple. Un problema es que los datos iniciales eran muy dispersos y algunas columnas tenían muchos más ceros que otras. ¿Cómo puedo elegir las variables con la menor correlación sin caer en la trampa de elegir las que tienen la menor correlación por pares sólo porque ambas son muy dispersas?
Respuesta
¿Demasiados anuncios?Me confunde un poco la pregunta. He aquí algunas indicaciones, algunas de las cuales espero que le ayuden
1) Si su objetivo es la selección de variables, podría utilizar un esquema penalizado l1 de tipo LASSO para realizar el trabajo. Consulte glmnet para obtener más información.
2) Si tiene una matriz de covarianza dispersa, ¿por qué le importa la proximidad a 0? En todo caso, como los datos son tan dispersos, la práctica general es "ignorar" en cierto sentido las correlaciones pequeñas para que haya más supuestos de independencia en el modelo. Ejemplos de este tipo de cosas son los bayes ingenuos, la red de bayes, etc.
3) Cuando se diseña una matriz de covarianza dispersa (si se piensa en un sentido frecuentista), el modelo penaliza la matriz por tener entradas no nulas, por lo que es raro ver entradas muy "cercanas" a 0.