12 votos

¿Cómo utilizar el análisis de componentes principales para seleccionar variables para la regresión?

Actualmente estoy utilizando el análisis de componentes principales para seleccionar las variables que se utilizarán en la modelización. Por el momento, hago las mediciones A, B y C en mis experimentos -- Lo que realmente quiero saber es: ¿Puedo hacer menos mediciones y dejar de registrar C y o B para ahorrar tiempo y esfuerzo?

Encuentro que las 3 variables se cargan fuertemente en mi primer componente principal, que representa el 60% de la varianza de mis datos. Las puntuaciones de los componentes me indican que si sumo estas variables en una determinada proporción (aA+bB+cC). Puedo obtener una puntuación en PC1 para cada caso de mi conjunto de datos y podría utilizar esta puntuación como variable en la modelización, pero eso no me permite dejar de medir B y C.

Si elevo al cuadrado las cargas de A, B y C en PC1, descubro que la variable A representa el 65% de la varianza en PC1 y la variable B representa el 50% de la varianza en PC1 y la variable C también el 50%, es decir, parte de la varianza en PC1 representada por cada variable A, B y C se comparte con otra variable, pero A sale ganando representando un poco más.

¿Es erróneo pensar que podría elegir simplemente la variable A o posiblemente (aA+bB, si es necesario) para utilizarla en la modelización porque esta variable describe una gran proporción de la varianza en PC1 y ésta, a su vez, describe una gran proporción de la varianza en los datos?

¿Por qué enfoque ha optado en el pasado?

  • ¿Variable única que carga más pesado en el PC1 aunque haya otros cargadores pesados?
  • ¿Puntuación de los componentes en el PC1 utilizando todas las variables aunque sean todas de carga pesada?

16voto

jldugger Puntos 7490

No has especificado qué "modelado" planeas, pero parece que estás preguntando sobre cómo seleccionar independiente variables entre $A$ , $B$ y $C$ con el fin de (digamos) retroceder un cuarto dependiente variable $W$ en ellos.

Para ver que este enfoque puede ir mal, considere tres variables independientes distribuidas normalmente $X$ , $Y$ y $Z$ con varianza unitaria. Para el verdadero, subyacente elija una pequeña constante $\beta \ll 1$ , una constante realmente pequeña $\epsilon \ll \beta$ y que la (variable dependiente) $W = Z$ (más un poco de error independiente de $X$ , $Y$ y $Z$ ).

Supongamos que las variables independientes que se tienen son $A = X + \epsilon Y$ , $B = X - \epsilon Y$ y $C = \beta Z$ . Entonces $W$ y $C$ están fuertemente correlacionadas (en función de la varianza del error), porque cada una de ellas se acerca a un múltiplo de $Z$ . Sin embargo, $W$ no está relacionado con ninguno de los dos $A$ o $B$ . Porque $\beta$ es pequeño, el primer componente principal para $\{A, B, C\}$ es paralelo a $X$ con valor propio $2 \gg \beta$ . $A$ y $B$ carga mucho en este componente y $C$ no carga en absoluto porque es independiente de $X$ (y $Y$ ). Sin embargo, si se elimina $C$ de las variables independientes, dejando sólo $A$ y $B$ , estarás tirando a la basura todo información sobre la variable dependiente porque $W$ , $A$ y $B$ ¡son independientes!

Este ejemplo muestra que para la regresión hay que prestar atención a cómo se correlacionan las variables independientes con la dependiente; no se puede salir airoso sólo analizando las relaciones entre las variables independientes.

1 votos

Debe ser $A = X + \epsilon Y$ no $Z + \epsilon Y$ ?

0 votos

@shabby Sí, gracias. (Tuve que cambiar todos los nombres de las variables en un borrador para que coincidieran con los nombres del OP y metí la pata en este).

4voto

Zizzencs Puntos 1358

Si sólo tienes 3 vías, ¿por qué quieres reducirlas?

Es decir, ¿la muestra es muy pequeña (de modo que 3 IVs suponen un riesgo de sobreajuste)? En este caso, considere los mínimos cuadrados parciales

¿O las mediciones son muy costosas (por lo que, en el futuro, le gustaría medir sólo un IV)? En este caso, yo consideraría la posibilidad de analizar las diferentes regresiones con cada IV por separado y en conjunto.

¿O alguien en su pasado hizo demasiado hincapié en el valor de la parsimonia? En este caso, ¿por qué no incluir los 3 IVs?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X