11 votos

Uso del análisis de componentes principales frente al análisis de correspondencia

Estoy analizando un conjunto de datos relativos a las comunidades intermareales. Los datos son porcentajes de cobertura (de algas, percebes, mejillones, etc.) en cuadrículas. Estoy acostumbrado a pensar en el análisis de correspondencia (AC) en términos de especies cuenta, y el análisis de componentes principales (PCA) como algo más útil para las tendencias ambientales lineales (no de las especies). Realmente no he tenido suerte en averiguar si el PCA o el CA serían más adecuados para el porcentaje de cobertura (no puedo encontrar ningún documento), y ni siquiera estoy seguro de cómo se distribuiría algo que está capado hasta el 100%?

Estoy familiarizado con la directriz aproximada de que si la longitud del primer eje del análisis de correspondencia de detrimento (DCA) es mayor que 2, entonces se puede asumir con seguridad que se debe utilizar el CA. La longitud del eje 1 del DCA era de 2,17, lo que no me parece útil.

15voto

David J. Sokol Puntos 1730

El PCA trabaja sobre los valores, mientras que el CA lo hace sobre los valores relativos. Ambos están bien para los datos de abundancia relativa del tipo que usted menciona (con una advertencia importante, véase más adelante). Con los datos en % ya se tiene una medida relativa, pero seguirá habiendo diferencias. Pregúntese

  • ¿quiere destacar el patrón en las especies/taxa abundantes (es decir, las que tienen un gran % de cobertura), o
  • ¿quieres centrarte en los patrones de composición relativa?

Si es lo primero, utilice PCA. Si es lo segundo, utilice CA. Lo que quiero decir con las dos preguntas es que si quieres

A = {50, 20, 10}
B = { 5,  2,  1}

¿se consideran diferentes o iguales? A y B son dos muestras y los valores son el % de cobertura de tres taxones mostrados. (Este ejemplo ha salido mal, ¡supongamos que hay suelo desnudo! ;-) PCA consideraría que son muy diferentes debido a la distancia euclidiana utilizada, pero CA consideraría que estas dos muestras son muy similares porque tienen el mismo perfil relativo.

La gran advertencia aquí es la naturaleza de composición cerrada de los datos. Si tiene unos pocos grupos (arena, limo, arcilla, por ejemplo) que suman 1 (100%), entonces ninguno de los dos enfoques es correcto y podría pasar a un análisis más apropiado mediante el PCA de relación logarítmica de Aitchison, que fue diseñado para datos de composición cerrada. (Recuerdo que para hacer esto hay que centrar por filas y columnas, y transformar los datos en logaritmos). También hay otros enfoques. Si usas R, un libro que puede ser útil es Análisis de datos de composición con R .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X