Actualmente estoy utilizando el análisis de componentes principales para seleccionar las variables que se utilizarán en la modelización. Por el momento, hago las mediciones A, B y C en mis experimentos -- Lo que realmente quiero saber es: ¿Puedo hacer menos mediciones y dejar de registrar C y o B para ahorrar tiempo y esfuerzo?
Encuentro que las 3 variables se cargan fuertemente en mi primer componente principal, que representa el 60% de la varianza de mis datos. Las puntuaciones de los componentes me indican que si sumo estas variables en una determinada proporción (aA+bB+cC). Puedo obtener una puntuación en PC1 para cada caso de mi conjunto de datos y podría utilizar esta puntuación como variable en la modelización, pero eso no me permite dejar de medir B y C.
Si elevo al cuadrado las cargas de A, B y C en PC1, descubro que la variable A representa el 65% de la varianza en PC1 y la variable B representa el 50% de la varianza en PC1 y la variable C también el 50%, es decir, parte de la varianza en PC1 representada por cada variable A, B y C se comparte con otra variable, pero A sale ganando representando un poco más.
¿Es erróneo pensar que podría elegir simplemente la variable A o posiblemente (aA+bB, si es necesario) para utilizarla en la modelización porque esta variable describe una gran proporción de la varianza en PC1 y ésta, a su vez, describe una gran proporción de la varianza en los datos?
¿Por qué enfoque ha optado en el pasado?
- ¿Variable única que carga más pesado en el PC1 aunque haya otros cargadores pesados?
- ¿Puntuación de los componentes en el PC1 utilizando todas las variables aunque sean todas de carga pesada?