¿Cuál es un método bueno, estructurado y reproducible para nombrar los componentes o factores seleccionados en el análisis de componentes principales (ACP)? Está claro que el signo y la magnitud de las entradas de los vectores propios son clave, pero ¿cómo pasar de ahí a un descriptor o nombre cualitativo y sólido?
ANTECEDENTES (saltar a menos que esté interesado en el fútbol): Resulta que tú (es decir, "yo") apenas consigues entender a duras penas la reducción de la dimensionalidad en datos con variables correlacionadas; te abres paso a través del álgebra lineal para entender (en un buen día) el cambio de coordenadas, la rotación de la nube de datos y otros conceptos arcanos, en gran medida gracias a hercúleos esfuerzos didácticos dirigidos a las abuelas, y otros miembros de la familia ( aquí ). Por último, el R
el código también cae en su lugar ( princomp
v prcomp
), y está listo para seleccionar los factores o componentes principales entre los vectores propios de la matriz de covarianza. Se obtiene la salida del summary
generar un biplot
y ya está, esperando que alguien más inteligente pueda superar el choque de la información superpuesta en el biplot
y exprimir alguna información significativa que pueda ser, sí, explicada a tu madre, a tu abuela o a tu hijo. Pero no se puede imprimir la biplot
- estás en la mesa de la cena...
¿Y qué hacer? Cómo dar un nombre significativo a PC1
y PC2
? ¿Necesitan un nombre? Deberían tener un nombre, porque el mero hecho de repasar los componentes de los vectores propios correspondientes no parece una forma estupenda e impactante de publicar un artículo. Así que cuáles son las pautas o principios para asignar estos nombres ?
Aquí es un ejemplo para los aficionados al fútbol con hijos con preguntas. Se obtiene el Economista y comprender por fin lo que hace del tiki-taka el mejor fútbol de la historia. Eso si sabes que ABCB
significa (viendo los partidos) que el balón va de Busquets a Xavi, de Xavi a Iniesta, y de Iniesta de vuelta a Xavi, por ejemplo. Y que en ABAC
el A
puede ser Messi buscando una pared antes de dar una asistencia de gol. ABAB
representa a dos genios del fútbol abrazando el balón mientras los defensores se rinden frustrados. Así que ahora (perdón a los aficionados al béisbol y al fútbol) el "Componente Principal 1" en la trama inicial tiene mucho sentido. Pero qué pasa si no eres fan del Barça... entonces estás a merced de la explicación del "Componente Principal 1": " una propensión mucho mayor a jugar ABAC
y ABCB
secuencias de paso, así como ABAB
". Y como es el Economist, hay alguna explicación más. Pero aun así... es la primera vez que oigo hablar de PCA, y no pude llegar más rápido a la Wikipedia. ¿No debería hacerse un esfuerzo para nombrar a este componente o factor algo que suene a meta -variable - algo así como, " pases de ida y vuelta " (no es genial, lo sé)?
Lo mismo suele ocurrir en otros casos en los que, tras el esfuerzo matemático, la asignación de descriptores cualitativos o nombres a las PC no es convincente. Sin una buena definición (o, en el mejor de los casos, un nombre) de los componentes principales, es difícil comprender su significado y cómo son una composición lineal ponderada de las variables iniciales .
Aquí hay un gráfico en un fenomenal post en línea (me abstendré de acreditarlo por lo que sigue) al final de un PCA sobre diferentes modelos de coches en el año 2004 - básicamente datos sobre especificaciones técnicas, precio, etc:
Es muy difícil, ¿verdad?, apostar por otros coches que no sean modelos alemanes de lujo.