24 votos

¿Qué es el "efecto herradura" y/o el "efecto arco" en el ACP / análisis de correspondencias?

Existen muchas técnicas en estadística ecológica para el análisis exploratorio de datos multidimensionales. Se denominan técnicas de "ordenación". Muchas de ellas son iguales o están estrechamente relacionadas con técnicas comunes en otros campos de la estadística. Quizá el ejemplo prototípico sea el análisis de componentes principales (ACP). Los ecólogos podrían utilizar el ACP, y técnicas afines, para explorar 'gradientes' (no tengo del todo claro qué es un gradiente, pero he estado leyendo un poco sobre el tema).

En esta página el último punto de Análisis de componentes principales (ACP) lee:

  • El ACP presenta un grave problema para los datos de vegetación: el efecto herradura. Éste se debe a la curvilinealidad de las distribuciones de especies a lo largo de los gradientes. Dado que las curvas de respuesta de las especies suelen ser unimodales (es decir, muy curvilíneas), los efectos herradura son frecuentes.

Más abajo, en Análisis de Correspondencias o Promedio Recíproco (AR) se refiere al "efecto arco":

  • La AR tiene un problema: el efecto arco. También está causado por la no linealidad de las distribuciones a lo largo de los gradientes.
  • El arco no es tan grave como el efecto herradura de la PCA, porque los extremos del gradiente no son enrevesados.

¿Puede alguien explicarlo? Recientemente he observado este fenómeno en gráficos que vuelven a representar los datos en un espacio dimensional inferior (a saber, análisis de correspondencias y análisis factorial).

  1. ¿A qué correspondería un "gradiente" de forma más general (es decir, en un contexto no ecológico)?
  2. Si esto ocurre con sus datos, ¿es un "problema" ("problema grave")? ¿Para qué?
  3. ¿Cómo debe interpretarse la salida en la que aparece una herradura / arco?
  4. ¿Es necesario aplicar un remedio? ¿Cómo? ¿Ayudarían las transformaciones de los datos originales? ¿Y si los datos son clasificaciones ordinales?

Las respuestas pueden existir en otras páginas de ese sitio (por ejemplo, para PCA , CA y DCA ). He estado intentando resolverlos. Pero las discusiones están redactadas con una terminología y unos ejemplos ecológicos tan poco familiares que resulta más difícil entender la cuestión.

1 votos

(+1) He encontrado una respuesta razonablemente clara en ordination.okstate.edu/PCA.htm . La explicación de la "curvilinealidad" de tu cita es totalmente errónea, y eso es lo que la hace tan confusa.

2 votos

Véase también Diaconis, et al. (2008), Herraduras en el escalado multidimensional y métodos de núcleo local , Ann. Appl. Stat. vol. 2, no. 3, 777-807.

0 votos

He intentado responder a tus preguntas, pero no estoy seguro de haberlo conseguido, ya que soy ecologista y los gradientes son mi forma de pensar en estas cosas.

24voto

David J. Sokol Puntos 1730

Q1

Los ecologistas hablan continuamente de gradientes. Hay muchos tipos de gradientes, pero lo mejor es pensar en ellos como una combinación de cualquier variable que se desee o que sea importante para la respuesta. Así, un gradiente podría ser el tiempo, el espacio, la acidez del suelo o los nutrientes, o algo más complejo, como una combinación lineal de una serie de variables requeridas por la respuesta de alguna manera.

Hablamos de gradientes porque observamos especies en el espacio o en el tiempo y toda una serie de cosas varían con ese espacio o tiempo.

Q2

He llegado a la conclusión de que en muchos casos la herradura en PCA no es un problema grave si entiendes cómo surge y no haces tonterías como tomar PC1 cuando el "gradiente" en realidad está representado por PC1 y PC2 (bueno, también está dividido en PCs superiores, pero esperemos que una representación 2D esté bien).

En CA supongo que pienso lo mismo (ahora que me he visto obligado a pensar un poco en ello). La solución puede formar un arco cuando no hay una 2ª dimensión fuerte en los datos de forma que una versión doblada del primer eje, que satisface el requisito de ortogonalidad de los ejes CA, explica más "inercia" que otra dirección en los datos. Esto puede ser más grave, ya que se trata de una estructura compuesta, mientras que con PCA el arco es sólo una forma de representar las abundancias de especies en los sitios a lo largo de un único gradiente dominante.

Nunca he entendido muy bien por qué la gente se preocupa tanto por el orden incorrecto a lo largo de PC1 con una herradura fuerte. Yo replicaría que no se debe tomar sólo PC1 en tales casos, y entonces el problema desaparece; los pares de coordenadas en PC1 y PC2 se deshacen de las inversiones en cualquiera de esos dos ejes.

Q3

Si viera la herradura en un biplot PCA, interpretaría que los datos tienen un único gradiente dominante o dirección de variación.

Si viera el arco, probablemente llegaría a la misma conclusión, pero sería muy cauteloso a la hora de intentar explicar en absoluto el eje 2 de CA.

Yo no aplicaría DCA - sólo tuerce el arco de distancia (en las mejores circunstancias) de tal manera que usted no ve a rarezas en 2-d parcelas, pero en muchos casos produce otras estructuras espurias, tales como diamantes o formas de trompeta a la disposición de las muestras en el espacio DCA. Por ejemplo:

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

enter image description here

Se observa una dispersión típica de los puntos de muestra hacia la izquierda del gráfico.

Q4

La respuesta a esta pregunta depende de los objetivos del análisis. Si el arco/la herradura se debiera a un único gradiente dominante, entonces en lugar de tener que representarlo como $m$ PCA, sería beneficioso poder estimar una única variable que represente las posiciones de los sitios/muestras a lo largo del gradiente.

Esto sugeriría encontrar una dirección no lineal en el espacio de alta dimensión de los datos. Uno de estos métodos es la curva principal de Hastie y Stuezel, pero existen otros métodos de colectores no lineales que podrían ser suficientes.

Por ejemplo, para algunos datos patológicos

enter image description here

Vemos una fuerte herradura. La curva principal intenta recuperar este gradiente subyacente o disposición/ordenación de las muestras mediante una curva suave en las m dimensiones de los datos. La siguiente figura muestra cómo el algoritmo iterativo converge en algo que se aproxima al gradiente subyacente. (Creo que se aleja de los datos en la parte superior del gráfico para acercarse más a los datos en dimensiones superiores, y en parte debido al criterio de autoconsistencia para que una curva sea declarada curva principal).

enter image description here

Tengo más detalles incluyendo el código en entrada en mi blog de donde tomé esas imágenes. Pero el punto principal aquí es que las curvas principales recuperan fácilmente el orden conocido de las muestras, mientras que PC1 o PC2 por sí solas no lo hacen.

En el caso del ACP, es habitual aplicar transformaciones en ecología. Las transformaciones más populares son las que devuelven una distancia no euclidiana cuando la distancia euclidiana se calcula sobre los datos transformados. Por ejemplo, la distancia de Hellinger es

$$D_{\mathrm{Hellinger}}(x1, x2) = \sqrt{\sum_{j=1}^p \left [ \sqrt{\frac{y_{1j}}{y_{1+}}} - \sqrt{\frac{y_{2j}}{y_{2+}}} \right ]^2}$$

Dónde $y_{ij}$ es la abundancia del $j$ ª especie de la muestra $i$ , $y_{i+}$ es la suma de las abundancias de todas las especies en el $i$ ª muestra. Si convertimos los datos en proporciones y aplicamos una transformación de raíz cuadrada, el ACP que preserva la distancia euclidiana representará las distancias de Hellinger en los datos originales.

La herradura es conocida y estudiada desde hace mucho tiempo en ecología; parte de la literatura temprana (además de una mirada más moderna) es

Las principales referencias de curvas son

Siendo la primera una presentación muy ecológica.

0 votos

Gracias, Gavin. Considera clasificaciones ordinales 1:5 de un conjunto de datos con preguntas como: "Me gusta mi médico", y "Siento que mi médico se preocupa por mí como persona". No están distribuidas de forma significativa ni en el espacio ni en el tiempo. ¿Cuál sería el "gradiente" en este caso?

0 votos

Con una tabla de 5x5 y N alto, una forma de visualizar los datos es con CA. Los datos son ordinales, pero CA no lo reconoce; así que podemos comprobar si las filas / columnas adyacentes están más cerca que las que están más separadas. Ambos conjuntos de puntos caen a lo largo de una línea clara en el orden apropiado, pero la línea se curva de tal manera que los extremos están más cerca entre sí que el punto medio en el espacio 2D. ¿Cómo debe interpretarse esto?

0 votos

CA encuentra un orden tanto para las filas (muestras) como para las variables (cols) que maximiza la dispersión de las "puntuaciones" de la muestra. Encuentra una variable latente (una combinación lineal de las variables) que maximiza esa dispersión. Llamamos gradiente a esa variable latente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X