Mi pregunta es muy similar a este , que no fue resuelto por desgracia.
Estoy trabajando en un proyecto para el que yo quiero para clasificar a los países por medio de sus VIH/SIDA de la carga. Así que he recogido una gran cantidad de datos de todos los países en el mundo. Por simplicidad vamos a suponer que he siguientes variables para cada país:
- DEA: las Muertes a causa del VIH
- LIV: las Personas que viven con el VIH
- PRV: tasa de prevalencia del VIH
- DALY: número de años de vida saludable perdidos a causa del VIH
- DALY ratio: proporción de años de vida saludable perdidos por el VIH en número total de años de vida saludable perdidos debido a la enfermedad en general.
Así que todas estas variables, de alguna manera medir la misma cosa: el VIH carga. Ahora quiero combinar todas estas variables en un 'score', que puedo clasificar a los países por medio de sus VIH carga.
La primera cosa que vino a mi mente fue la de realizar un análisis de componentes principales y retener a un PC. Sin embargo, si nos fijamos en las cargas de este primer PC, vemos lo siguiente:
- DEA: 0.366
- LIV: -0.392
- PRV: -0.442
- DALY: 0.466
- DALY relación: 0.481
Debido a la alta pares de correlaciones entre las variables, yo habría esperado de cada una de las cargas tienen el mismo signo. Ahora, los países con una alta carga de VIH (por lo alto puntaje en cada una de las variables) ahora obtener una puntuación más baja para el primer PC en un lado (debido a la negativa de cargas de 'LIV' y 'PRV') y una puntuación más alta para el primer PC en el otro lado (debido a los efectos positivos de la 'DEA', 'DALY' y 'DALY ratio").
Mis preguntas:
Es correcto que mirar los resultados de la primera PC no es una forma correcta de dar una puntuación del VIH de la carga para cada uno de los países, ya que de lo contrario las cargas, como se explicó anteriormente?
Puede sugerir otro (la mejor manera) para combinar toda la información en una sola puntuación?