2 votos

PCA: Alta varianza explicada en un solo componente principal

Soy nuevo en PCA y estoy tratando de interpretar algunos resultados que tengo con respecto a algunos datos biológicos y tengo algunas dificultades para entenderlos completamente. Básicamente, estos datos están compuestos por soluciones (conjunto de 1,2,3,etc... reacciones biológicas) que corresponden a columnas (reacciones) que contienen flujos (Valores). Es algo así :

           Reaction A   Reaction B Reaction C
sol_1          10            20         30
sol_2           5            3          2    
sol_3           10          40          40

Como tengo muchas soluciones y me gustaría seguir analizando sólo 2 o 3, mi objetivo es hacer un PCA (junto con algún HCA) para encontrar patrones y agrupar soluciones para reducir el número de mi grupo de soluciones.

En un modelo que he hecho, tengo estos resultados:

enter image description here

Mis principales preguntas son:

  1. ¿Qué se puede interpretar respecto a una varianza explicada tan alta en una sola dimensión (en comparación con los resultados que tengo anteriormente)?
  2. En cuanto al gráfico de puntuación (gráfico de individuos), ¿qué tipo de interpretación se puede hacer de esa visualización? porque parece que hay 4 grupos principales y que tienen simetría entre sí.

Cualquier duda que tengáis o más información que pueda detallar no dudéis en preguntar. Y cualquier idea será útil . Gracias.

0voto

Gonzalo Matheu Puntos 103

El PCA es una buena forma de estudiar las poblaciones. Por lo tanto, un buen punto de partida es saber qué eje representa las muestras y cuál representa las variables o características. En tu caso, parece que las soluciones son muestras.

  1. En muchos conjuntos de datos naturalistas, es común ver gráficos de espectro propio que se parecen a (A). Por lo tanto, es difícil interpretar algo más que sus muestras se encuentran en una línea en el espacio definido por las reacciones.

Por ejemplo, para dos reacciones se obtendrá un gráfico como el siguiente: reaction 1 vs. reaction 2

  1. El gráfico de puntuación podría ser más útil en su caso. Porque son útiles para agrupar, encontrar valores atípicos e identificar patrones implícitos como el comportamiento temporal. Para aprovechar esto, tendrá que utilizar su conocimiento de las soluciones para averiguar qué puede decir sobre el gráfico de puntuación que se agrupa de la manera que lo ha hecho. Por ejemplo, digamos que ha recogido los datos durante diferentes momentos del día (por la mañana, por la tarde, etc.) y a partir de estos gráficos se da cuenta de que cada grupo corresponde a uno de esos momentos.

Por ejemplo, un gráfico de puntuación agrupada, podría pertenecer a un conjunto de datos como éste: enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X