5 votos

Nombrar los factores del ACP: ¿es un arte menor?

¿Cuál es un método bueno, estructurado y reproducible para nombrar los componentes o factores seleccionados en el análisis de componentes principales (ACP)? Está claro que el signo y la magnitud de las entradas de los vectores propios son clave, pero ¿cómo pasar de ahí a un descriptor o nombre cualitativo y sólido?


ANTECEDENTES (saltar a menos que esté interesado en el fútbol): Resulta que tú (es decir, "yo") apenas consigues entender a duras penas la reducción de la dimensionalidad en datos con variables correlacionadas; te abres paso a través del álgebra lineal para entender (en un buen día) el cambio de coordenadas, la rotación de la nube de datos y otros conceptos arcanos, en gran medida gracias a hercúleos esfuerzos didácticos dirigidos a las abuelas, y otros miembros de la familia ( aquí ). Por último, el R el código también cae en su lugar ( princomp v prcomp ), y está listo para seleccionar los factores o componentes principales entre los vectores propios de la matriz de covarianza. Se obtiene la salida del summary generar un biplot y ya está, esperando que alguien más inteligente pueda superar el choque de la información superpuesta en el biplot y exprimir alguna información significativa que pueda ser, sí, explicada a tu madre, a tu abuela o a tu hijo. Pero no se puede imprimir la biplot - estás en la mesa de la cena...

¿Y qué hacer? Cómo dar un nombre significativo a PC1 y PC2 ? ¿Necesitan un nombre? Deberían tener un nombre, porque el mero hecho de repasar los componentes de los vectores propios correspondientes no parece una forma estupenda e impactante de publicar un artículo. Así que cuáles son las pautas o principios para asignar estos nombres ?

Aquí es un ejemplo para los aficionados al fútbol con hijos con preguntas. Se obtiene el Economista y comprender por fin lo que hace del tiki-taka el mejor fútbol de la historia. Eso si sabes que ABCB significa (viendo los partidos) que el balón va de Busquets a Xavi, de Xavi a Iniesta, y de Iniesta de vuelta a Xavi, por ejemplo. Y que en ABAC el A puede ser Messi buscando una pared antes de dar una asistencia de gol. ABAB representa a dos genios del fútbol abrazando el balón mientras los defensores se rinden frustrados. Así que ahora (perdón a los aficionados al béisbol y al fútbol) el "Componente Principal 1" en la trama inicial tiene mucho sentido. Pero qué pasa si no eres fan del Barça... entonces estás a merced de la explicación del "Componente Principal 1": " una propensión mucho mayor a jugar ABAC y ABCB secuencias de paso, así como ABAB ". Y como es el Economist, hay alguna explicación más. Pero aun así... es la primera vez que oigo hablar de PCA, y no pude llegar más rápido a la Wikipedia. ¿No debería hacerse un esfuerzo para nombrar a este componente o factor algo que suene a meta -variable - algo así como, " pases de ida y vuelta " (no es genial, lo sé)?

Lo mismo suele ocurrir en otros casos en los que, tras el esfuerzo matemático, la asignación de descriptores cualitativos o nombres a las PC no es convincente. Sin una buena definición (o, en el mejor de los casos, un nombre) de los componentes principales, es difícil comprender su significado y cómo son una composición lineal ponderada de las variables iniciales .

Aquí hay un gráfico en un fenomenal post en línea (me abstendré de acreditarlo por lo que sigue) al final de un PCA sobre diferentes modelos de coches en el año 2004 - básicamente datos sobre especificaciones técnicas, precio, etc:

enter image description here

Es muy difícil, ¿verdad?, apostar por otros coches que no sean modelos alemanes de lujo.

8voto

zowens Puntos 1417

Usted se centra en "nombrar", pero yo diría que el verdadero problema es comprender lo que significan los componentes principales. Tienes razón: es un arte. A menudo resulta que son muy difíciles de interpretar, de ahí todos los intentos (especialmente en la literatura y la práctica del análisis factorial) de rotar los componentes/factores para conseguir una "estructura simple", es decir, una estructura que sea más fácil de interpretar (véase mi respuesta aquí ).

No sé de dónde has sacado tu cifra, pero este conjunto de datos fue muy bien analizado en Notas de la conferencia de Cosma Shalizi sobre el PCA Y cito la página 7:

Esta [matriz de vectores propios] dice que todas las variables excepto los kilometrajes de gas tienen una proyección negativa sobre el primer componente. Esto significa que hay una correlación negativa entre el kilometraje y todo lo demás. El primer componente principal nos dice sobre si vamos a tener un coche grande y caro que devora la gasolina con un potente motor, o si estamos adquiriendo un coche pequeño, barato, de bajo consumo de combustible con un motor débil. motor.

El segundo componente es un poco más interesante. La cilindrada del motor y el apenas se proyectan en él. En cambio, tenemos un contraste entre el tamaño físico del coche (proyección positiva) y el precio y la potencia. Básicamente, este eje separa las minifurgonetas, los camiones y los SUV (grandes, no tan caros, no de potencia) de los deportivos (pequeños, caros, con mucha potencia).

Una vez que hayas entendido eso, puedes buscar buenos nombres.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X