12 votos

¿Por qué es que no se puede hacer una correlación de Pearson en la proporción de datos?

Un módulo en línea estoy estudiando, afirma que uno debe nunca utilizar la correlación de Pearson con la proporción de datos. ¿Por qué no?

O, si es que a veces ACEPTAR o siempre bien, ¿por qué?

11voto

Adam S Puntos 344

El enlace del video de tu comentario establece el contexto de las composiciones, que también puede ser llamado mezclas. En estos casos, la suma de la proporción de cada componente agregar hasta 1. Por ejemplo, el Aire es de 78% de nitrógeno, 21% de oxígeno y 1% de otros (total 100%). Dado que la cantidad de uno de los componentes está totalmente determinado por los otros, cualquiera de los dos componentes tienen una perfecta multi-lineal de la relación. Para el ejemplo del aire, tenemos:

$x_{1} + x_{2} + x_{3} = 1$

así, entonces:

$x_{1} = 1 - x_{2} - x_{3} $

$x_{2} = 1 - x_{1} - x_{3}$

$x_{3} = 1 - x_{1} - x_{2}$

Así que si usted sabe que cualquiera de los dos componentes, el tercero es inmediatamente conocido.

En general, la restricción de las mezclas es

$\sum_{i=1}^{q} x_{i} = 1$

Esta restricción hace que los niveles de los factores $x_{i}$ no indepenent.

Usted puede calcular una correlación entre los dos componentes, pero no es informativo, ya que siempre están correlacionados. Usted puede leer más acerca de los análisis de la composición en el Análisis de los datos medidos como proporcional de la composición .

Puede utilizar la correlación cuando la proporción de los datos provienen de diferentes dominios. Decir que su respuesta es la fracción de los píxeles muertos en una pantalla LCD. Usted podría tratar de correlacionar este, digamos, la fracción de helio utilizado en un tratamiento químico paso de la pantalla.

7voto

Uri Puntos 111

Esto es para un caso cuando varias variables suma junto a 1, en cada observación. Mi respuesta va a ser la intuición de nivel; esto es intencional (y también, yo no soy un experto de los datos de composición).

Vamos a tener yo.yo.d. (por lo tanto cero correlacionados) positivos valores de las variables que luego se suma y se vuelve a calcular como las proporciones de esa suma. A continuación,

  • En el caso de dos variables V1 V2, si V1 es dijo para variar libremente, a continuación, V2 no tiene espacio para la libertad (desde V1+V2=constante) y es totalmente fijo; la mayor es la V1, el menor es V2, el menor es V1 mayor es V2. Su correlación es sino $-1$ y siempre es así.
  • En el caso de 3 variables V1 V2 V3, si V1 es dijo para variar libremente entonces V2+V3 es fijo; es decir, que en el interior (V2+V3) cada uno de los dos variables están todavía parcialmente libre: ellos están en el promedio de $1/2$ tiempos fijos de cada uno, completo fija en total. Por lo tanto, si cualquiera de los tres las variables se toma como libre (como nos tomó V1), ninguna de las restantes dos se espera $1/2$ fijo. De modo que la correlación entre ellos es $-0.5$. Esta es la esperada correlación; puede variar de muestra para la muestra.
  • En el caso de 4 variables V1 V2 V3 V4 por el mismo razonamiento que hemos que, si tomamos cualquiera de los cuatro como libre, a continuación, uno de los el resto se espera que los ser $1/3$ fijo; por lo tanto, la espera correlación entre cualquier par de los cuatro - uno como libre de los otros como $1/3$ fijo - es $-0.333$.
  • Como el número de (al principio yo.yo.d.) variables crece, se espera que el pares de correlación crece a partir de negativos hacia la $0$, y su la variación de la muestra para la muestra se hace más grande.

6voto

David Lovell Puntos 131

Este es un profundo pregunta, con algunos matices que deben ser declarados. Voy a intentar mi mejor esfuerzo, pero a pesar de que he publicado sobre este tema (Proporcionalidad: Una Alternativa Válida a la Correlación de los Datos Relativos) siempre estoy preparado para ser sorprendido por una nueva perspectiva en el análisis de los datos que contiene sólo información relativa.

Como colaboradores de este hilo han señalado, la correlación es notorio (en algunos círculos), por ser de sentido cuando se aplica a los datos de composición que surge cuando un conjunto de componentes que está obligado a sumar a una constante (como vemos con las proporciones, porcentajes, partes por millón, etc.).

Karl Pearson acuñó el término correlación espuria con esto en mente. (Nota: Tyler Vigen popular de Correlación Espuria sitio no es tanto acerca de la correlación espuria como la "correlación implica causalidad" falacia.)

La sección 1.7 de Aitchison (2003) Una Guía Concisa para la Composición de Análisis de Datos proporciona un ejemplo clásico de por qué la correlación es inadecuado para la medida de la asociación de los datos de composición (por comodidad, citado en esta Información Complementaria.

Los datos de composición surgir no sólo cuando un conjunto de no-negativo componentes están hechos a la suma de una constante; los datos son de composición siempre que llevar sólo la información relativa.

Yo creo que el principal problema con la correlación de los datos que llevar sólo la información relativa está en la interpretación de los resultados. Este es un tema que nos puede ilustrar con una sola variable; digamos que "donuts producido por dólar de PIB" a través de las naciones del mundo. Si una nación valor es mayor que otro, es que debido a que

  • su donut de producción es más alto?
  • su PIB es menor?

...¿quién puede decir?

Por supuesto, ya que la gente comente en este hilo, se puede calcular las correlaciones de estos tipos de variables como descriptivos de la variable. Pero, ¿qué tal correlaciones decir?

3voto

sue Puntos 43

Yo tenía la misma pregunta. He encontrado esta referencia en biorxiv útil:

Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
La "proporcionalidad: una alternativa válida a la correlación de los datos relativos"

En la información de apoyo de este documento (Lovell, David, et al. ;doi: dx.doi.org/10.1101/008417), los autores mencionan que las correlaciones entre la abundancia relativa de las mismas no proporcionan ninguna información en algunos casos. Dan un ejemplo de la abundancia relativa de los dos expresiones de arnm. En la Figura S2, la abundancia relativa de los dos tipos de arnm están perfectamente correlacionados negativamente, aunque la correlación de estos dos arnm en valores absolutos no está negativamente relacionada con la (puntos verdes y púrpura puntos).

Tal vez podría ayudarle.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X