7 votos

Combinación de múltiples variables en una "puntuación"

Mi pregunta es muy similar a este , que no fue resuelto por desgracia.

Estoy trabajando en un proyecto para el que yo quiero para clasificar a los países por medio de sus VIH/SIDA de la carga. Así que he recogido una gran cantidad de datos de todos los países en el mundo. Por simplicidad vamos a suponer que he siguientes variables para cada país:

  • DEA: las Muertes a causa del VIH
  • LIV: las Personas que viven con el VIH
  • PRV: tasa de prevalencia del VIH
  • DALY: número de años de vida saludable perdidos a causa del VIH
  • DALY ratio: proporción de años de vida saludable perdidos por el VIH en número total de años de vida saludable perdidos debido a la enfermedad en general.

Así que todas estas variables, de alguna manera medir la misma cosa: el VIH carga. Ahora quiero combinar todas estas variables en un 'score', que puedo clasificar a los países por medio de sus VIH carga.

La primera cosa que vino a mi mente fue la de realizar un análisis de componentes principales y retener a un PC. Sin embargo, si nos fijamos en las cargas de este primer PC, vemos lo siguiente:

  • DEA: 0.366
  • LIV: -0.392
  • PRV: -0.442
  • DALY: 0.466
  • DALY relación: 0.481

Debido a la alta pares de correlaciones entre las variables, yo habría esperado de cada una de las cargas tienen el mismo signo. Ahora, los países con una alta carga de VIH (por lo alto puntaje en cada una de las variables) ahora obtener una puntuación más baja para el primer PC en un lado (debido a la negativa de cargas de 'LIV' y 'PRV') y una puntuación más alta para el primer PC en el otro lado (debido a los efectos positivos de la 'DEA', 'DALY' y 'DALY ratio").

Mis preguntas:

  • Es correcto que mirar los resultados de la primera PC no es una forma correcta de dar una puntuación del VIH de la carga para cada uno de los países, ya que de lo contrario las cargas, como se explicó anteriormente?

  • Puede sugerir otro (la mejor manera) para combinar toda la información en una sola puntuación?

7voto

Nick Cox Puntos 22819

Tomando tu ejemplo, literalmente, yo diría que el enfoque es problemático desde el principio.

  • Si el problema es la evaluación de la carga total, a continuación, las cifras absolutas de muertes y de personas que viven con el SIDA son variables clave, pero cualquier PCA es probable que sea dominado por un pequeño número de países con grandes poblaciones. Incluso si usted usa basado en la correlación de la PCA, como se debe cuando las variables en unidades muy diferentes, usted tendrá algunos de los grandes valores atípicos en los que hay para la mayoría de los concebible mezclas de los países.

  • Si el problema es la evaluación de la carga total dado el tamaño de la población, entonces las otras variables son relevantes.

  • Parece poco probable que la mezcla de diferentes tipos de variables que van a ayudar a cualquiera de los dos propósitos.

  • La pregunta más importante de todas es la de si es una buena idea para buscar una escala única de esta manera. Lo mejor que puedo hacer es indicador de que estadísticamente mentalidad de las personas tienen puntos de vista muy diferentes sobre esto, muchos y muy negativos. Mi propia opinión es que la PCA de este tipo sólo será de interés para aquellos capaces de comprender y criticar la PCA y haciendo sus propios análisis de alternativas. Una falacia conocida bajo muchos nombres diferentes, de los cuales uno es la falacia de la concreción fuera de lugar, es la confusión del deseo de una sola medida con una demostración de que tal medida puede ser estimado de manera fiable y clara identificados a partir de los datos. Una cosa es tener un único nombre (la creatividad, la inteligencia, en este caso la carga) y otra cosa es tener una sola dimensión cuantificable.

Volviendo a los resultados, lo que es más alarmante, ya que claramente la bandera, es que las cargas en el primer PC ni siquiera tienen el mismo signo. Si hay una importante dimensión compartida que justifica tratando de cuantificar la carga como una sola medida, entonces se requiere mínimamente de todas aquellas variables que se correlacionaron positivamente entre sí (o reversiones de signo evidente de las consecuencias de algunas de las medidas que se están directa y algunos inversa, que no parece ser el caso aquí). Sin ver los datos, yo no puedo interpretar más, pero me gustaría esperar a que la variación en la señal de ser un efecto secundario de mushing de manera bastante diferentes variables que también están sesgados en la distribución y con los valores atípicos.

El trazado de los datos le ayudará a entender por qué usted consiguió los resultados que usted hizo.

No tengo sugerencias para una forma diferente de colapso a una sola puntuación. He visto demasiadas aplicaciones en las que tales esfuerzos no eran útiles a ser positiva.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X