Tengo una gran matriz de datos que estoy tratando de reducir a un conjunto de bases de tamaño razonable. La matriz original es de 916x225, y necesito reducir el número de variables (sus columnas) a unas 50, pero quiero seleccionar las más representativas de la matriz completa.
En concreto, quiero encontrar un subconjunto S de tamaño -digamos- 50 variables de todas, que deje la menor varianza no explicada en una regresión de todas las demás variables sobre S ("más representativa").
Mi enfoque actual es realizar el PCA ( prcomp
en R), y obtener las columnas individuales que están más asociadas con cada componente principal. Asumo que la variable original con el mayor valor absoluto para su carga (es decir, el mayor valor absoluto en la matriz de rotación para cada variable), es por tanto la más representativa o la más correlacionada con ese PC.
¿Estoy interpretando esto correctamente? Si no es así, se agradece cualquier orientación adicional.
Actualización: A partir de los comentarios de abajo, quería añadir este punto aclaratorio para ayudar a centrar cualquier discusión en mi intención. Pido disculpas por no haberlo transmitido bien en la pregunta original.
Esencialmente, busco un subconjunto S de tamaño -digamos- L=50 variables de todas, que deje la menor varianza no explicada en una regresión de las otras variables sobre S ("más representativa"). Mi esperanza era que mediante el uso de PCA, podría encontrar cuántas PC son necesarias para, digamos, el 90% de la varianza, y luego elegir las variables que están más correlacionadas con cada PC.
Yo también pensé en la búsqueda por fuerza bruta, pero no lo he probado porque tengo 225 variables en mi matriz original, y 225 elige 50 viene a ser como 3*e+50. Eso podría llevar mucho tiempo para calcular todos esos modelos lineales.