19 votos

Creación de un índice único a partir de varios componentes principales o factores retenidos del ACP/AF

Estoy utilizando el análisis de componentes principales (ACP) para crear un índice necesario para mi investigación. Mi pregunta es cómo debo crear un índice único utilizando los componentes principales retenidos calculados mediante PCA.

Por ejemplo, decidí conservar 3 componentes principales después de utilizar el ACP y calculé las puntuaciones de estos 3 componentes principales. ¿Cuál es la forma adecuada de crear, para cada encuestado, un índice único a partir de estas 3 puntuaciones?

  • ¿Es pertinente sumar las 3 puntuaciones calculadas para tener un valor compuesto?
  • ¿O promediar las 3 puntuaciones para tener dicho valor?
  • ¿O debería quedarme sólo con el primer componente principal (el más fuerte) y utilizar su puntuación como índice?

También se puede recurrir al análisis factorial (AF), pero la cuestión sigue siendo la misma: ¿cómo crear un índice único basado en varias puntuaciones factoriales?

17voto

Uri Puntos 111

Esta respuesta es deliberadamente no matemática y está orientada a un psicólogo no estadístico (digamos) que pregunta si puede sumar/promediar las puntuaciones de los distintos factores para obtener una puntuación de "índice compuesto" para cada encuestado.

Suma o promedio las puntuaciones de algunas variables supone que las variables pertenecen a la misma dimensión y son medidas fungibles. (En la pregunta, las "variables" son componente o puntuación de los factores lo que no cambia la cosa, ya que son ejemplos de variables).

enter image description here

Realmente (Fig. 1), los encuestados 1 y 2 pueden considerarse igualmente atípicos (es decir, desviados de 0, el lugar del centro de datos o el origen de la escala), ya que ambos tienen la misma puntuación media $(.8+.8)/2=.8$ y $(1.2+.4)/2=.8$ . Valor $.8$ es válido, como el grado de atipicidad, para el constructo $X+Y$ tan perfectamente como lo fue para $X$ y $Y$ por separado. Las variables correlacionadas, que representan la misma dimensión, pueden considerarse como medidas repetidas de la misma característica y la diferencia o no equivalencia de sus puntuaciones como un error aleatorio. Por lo tanto, está justificado sumar o promediar las puntuaciones, ya que se espera que los errores aleatorios se anulen entre sí. en spe .

No es así si $X$ y $Y$ no se correlacionan lo suficiente como para considerarse la misma "dimensión". Por tanto, la desviación/atípicidad de un encuestado se transmite mediante la distancia euclidiana al origen (Fig. 2).

enter image description here

Esa distancia es diferente para los encuestados 1 y 2: $\sqrt{.8^2+.8^2} \approx 1.13$ y $\sqrt{1.2^2+.4^2} \approx 1.26$ , - respondend 2 estar más lejos. Si las variables son dimensiones independientes, la distancia euclidiana sigue relacionando la posición de un encuestado con el punto de referencia cero, pero la puntuación media no. Tomemos sólo un ejemplo extremo con $X=.8$ y $Y=-.8$ . Desde el "punto de vista" de la puntuación media, este encuestado es absolutamente típico, como $X=0$ , $Y=0$ . ¿Es eso cierto para ti?

Otra respuesta menciona aquí suma o media ponderada, es decir $w_XX_i+w_YY_i$ con unos pesos razonables, por ejemplo - si $X$ , $Y$ son componentes principales - proporcionales a la desviación estándar o varianza del componente. Pero esa ponderación no cambia nada en principio, sólo estira y aprieta el círculo de la Fig. 2 a lo largo de los ejes hasta convertirlo en una elipse. Ponderaciones $w_X$ , $w_Y$ se fijan constantes para todos los encuestados i, que es la causa del fallo. Para relacionar la desviación bivariante de un encuestado -en un círculo o una elipse- hay que introducir ponderaciones dependientes de sus puntuaciones; la distancia euclídea considerada anteriormente es es en realidad un ejemplo de suma ponderada con pesos dependientes de los valores. Y si es importante que incorpores varianzas desiguales de las variables (por ejemplo, de los componentes principales, como en la pregunta) puedes calcular la distancia euclídea ponderada, la distancia que se encontrará en la Fig. 2 después de que el círculo se alargue.

La distancia euclidiana (ponderada o no ponderada) como desviación es la solución más intuitiva para medir la atipicidad bivariada o multivariada de los encuestados. Se basa en la suposición de que las variables no correlacionadas ("independientes") forman un espacio liso e isótropo. La distancia de Manhatten podría ser una de las otras opciones. Considera que el espacio de características está formado por bloques, por lo que sólo se permiten distancias horizontales/erectas, no diagonales. $|.8|+|.8|=1.6$ y $|1.2|+|.4|=1.6$ dan igual las atipicidades de Manhattan para dos de nuestros encuestados; en realidad es la suma de las puntuaciones, pero sólo cuando las puntuaciones son todas positivas. En el caso de $X=.8$ y $Y=-.8$ la distancia es $1.6$ pero la suma es $0$ .

(Puede que exclame "haré que todas las puntuaciones de los datos sean positivas y calcularé la suma (o la media) con buena conciencia, ya que he elegido la distancia de Manhatten", pero piense: ¿tiene derecho a mover el origen libremente? Los componentes o factores principales, por ejemplo, se extraen con la condición de que los datos se hayan centrado en la media, lo cual tiene sentido. Otro origen habría producido otros componentes/factores con otras puntuaciones. No, la mayoría de las veces no se puede jugar con el origen (el locus del "encuestado típico" o del "rasgo de nivel cero").

En resumen Si el objetivo del constructo compuesto es reflejar las posiciones de los encuestados en relación con algún "cero" o lugar típico, pero las variables apenas se correlacionan, debería elegirse algún tipo de distancia espacial desde ese origen, y no la media (o suma), ponderada o no ponderada.

Bueno, la media (suma) tendrá sentido si decides ver las variables (no correlacionadas) como modos alternativos para medir el mismo cosa. De esta forma estás ignorando deliberadamente la diferente naturaleza de las variables. En otras palabras, abandonas conscientemente la Fig. 2 en favor de la Fig. 1: "olvidas" que las variables son independientes. Entonces - haz la suma o la media. Por ejemplo, las puntuaciones de "bienestar material" y "bienestar emocional" podrían promediarse, al igual que las puntuaciones de "CI espacial" y "CI verbal". Este tipo de pragmática , los compuestos sistémicos no aprobados se denominan índices de batería (una colección de tests o cuestionarios que miden cosas no relacionadas o cosas correlacionadas cuyas correlaciones ignoramos se denomina "batería"). Los índices de batería sólo tienen sentido si las puntuaciones tienen la misma dirección (por ejemplo, tanto la riqueza como la salud emocional se consideran "mejor" polo). Su utilidad fuera de entornos ad hoc estrechos es limitada.

Si las variables tienen relaciones intermedias, es decir, están considerablemente correlacionadas pero no lo bastante como para considerarlas duplicadas o alternativas entre sí, a menudo sumamos (o promediamos) sus valores de forma ponderada. Entonces, estas ponderaciones deben diseñarse cuidadosamente y deben reflejar, de una u otra manera, las correlaciones. Esto es lo que hacemos, por ejemplo, mediante el ACP o el análisis factorial (AF), donde calcular especialmente puntuaciones de los componentes/factores. Si sus variables ya son en sí mismas puntuaciones de componentes o factores (como dice aquí la pregunta del OP) y están correlacionadas (debido a la rotación oblicua), puede someterlas (o directamente la matriz de carga) al ACP/AF de segundo orden para encontrar las ponderaciones y obtener el PC/factor de segundo orden que le servirá de "índice compuesto".

Pero si sus puntuaciones de componentes/factores no estaban correlacionadas o lo estaban débilmente, no hay estadística razón ni para sumarlos sin más ni mediante la inferencia de pesos. En su lugar, hay que utilizar alguna distancia. El problema de la distancia es que siempre es positiva: se puede decir cuánto de atípico es un encuestado, pero no se puede decir si está "por encima" o "por debajo". Pero éste es el precio que hay que pagar por exigir un único índice a partir de un espacio multirasgo. Si quieres tanto la desviación como el signo en dicho espacio, yo diría que eres demasiado exigente.

En el último punto, el PO pregunta si es correcto tomar sólo la puntuación de una variable, la más fuerte con respecto a su varianza - 1er componente principal en este caso - como único proxy, para el "índice". Tiene sentido si ese PC es mucho más fuerte que el resto de PC. Aunque cabría preguntarse entonces "si es mucho más fuerte, ¿por qué no lo extrajo/retuvo sólo él?".

0voto

user61085 Puntos 1

Creación de un índice compuesto mediante PCA a partir de series temporales enlaces a http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf .

En ese artículo, en la página 19, los autores mencionan una forma de crear un Índice No Estandarizado (ISN) utilizando la proporción de variación explicada por cada factor respecto a la variación total explicada por los factores elegidos. A continuación, se normalizó este ISN.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X