Hasta ahora, he eliminado las variables colineales como parte del proceso de preparación de los datos, mirando las tablas de correlación y eliminando las variables que están por encima de un determinado umbral. ¿Existe una forma más aceptada de hacer esto? Además, soy consciente de que sólo mirar la correlación entre 2 variables a la vez no es ideal, las medidas como el VIF tienen en cuenta la correlación potencial a través de varias variables. ¿Cómo se puede elegir sistemáticamente combinaciones de variables que no presenten multicolinealidad?
Tengo mis datos dentro de un marco de datos de pandas y estoy usando los modelos de sklearn.
4 votos
Puede que le interese la regresión por mínimos cuadrados parciales o la regresión por componentes principales. Es probable que uno de ellos sea compatible.
0 votos
Ya veo. Entonces, si lo he entendido bien, al ejecutar PCA obtendría un conjunto de componentes principales independientes, que podría utilizar como covariables para mi modelo, ya que cada uno de los componentes principales no es colineal con los demás.
2 votos
Exactamente. Es probable que algunos de los componentes resulten irrelevantes. Esto es más fácil que eliminar variables.
0 votos
Mi intención es utilizar el modelo con fines explicativos más que predictivos. ¿Cómo se interpretaría un modelo que utilizara componentes principales como covariables?
1 votos
En ese caso no sirve de nada, ya que la interpretación de los componentes es un arte un tanto oscuro.
0 votos
stackoverflow.com/questions/27651702/ stackoverflow.com/a/25833792/535665