57 votos

Por qué la correlación cero no implica necesariamente la independencia

Si dos variables tienen correlación 0, ¿por qué no son necesariamente independientes? ¿Son independientes las variables con correlación cero en circunstancias especiales? Si es posible, busco una explicación intuitiva, no una muy técnica.

14 votos

La correlación es una medida de dependencia lineal (asociación). Es posible que dos variables aleatorias no estén correlacionadas pero sean no linealmente dependientes.

1 votos

Explicación intuitiva -> math.stackexchange.com/questions/444408/

6 votos

La correlación cero implica la independencia si las variables son normales multivariantes. Esto no es lo mismo que cada variable sea normal - véase aquí para algunos diagramas de dispersión de variables normales dependientes pero correlacionadas con cero (cada variable es individualmente normal)

64voto

Marcelo Ventura Puntos 466

La correlación mide la asociación lineal entre dos variables dadas y no tiene obligación de detectar ninguna otra forma de asociación.

Así que esas dos variables podrían estar asociadas de otras maneras no lineales y la correlación no podría distinguirse del caso independiente.

Como ejemplo muy didáctico, artificial y no realista, se puede considerar $X$ tal que $P(X=x)=1/3$ para $x=-1, 0, 1$ y $Y=X^2$ . Obsérvese que no sólo están asociados, sino que uno es función del otro. No obstante, su correlación es 0, ya que su asociación es ortogonal a la que puede detectar la correlación.

30voto

Nulled Puntos 101

Existe una falta de rigor generalizada en el uso de la palabra "correlación" por la sencilla razón de que puede tener supuestos y significados muy diferentes. El uso más sencillo, más laxo y más común es que existe una vaga asociación, relación o falta de independencia entre un par estático de variables aleatorias.

Aquí, la métrica por defecto a la que se hace referencia suele ser la Pearson correlación, que es una medida estandarizada de pares, lineal asociación entre dos variables de distribución continua. Una de las Pearson's El error más común es informar en forma de porcentaje. Definitivamente no es un porcentaje. El Pearson correlación, r oscila entre -1,0 y +1,0, donde 0 significa que no hay lineal asociación. Otros problemas no tan reconocidos con el uso de la Pearson correlación por defecto es que, en realidad, se trata de una medida de linealidad bastante estricta y no robusta que requiere variables de escala de intervalo como entrada (véase el excelente artículo de Paul Embrechts sobre Correlación y dependencia en la gestión de riesgos: Propiedades y dificultades aquí: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf ).

Embrechts señala que hay muchos supuestos falaces sobre la dependencia que comienzan con suposiciones sobre la estructura subyacente y la forma geométrica de estas relaciones:

Estas falacias surgen de una suposición ingenua de que la dependencia de dependencia del mundo elíptico también son válidas en el mundo no elíptico mundo no elíptico

Embrechts señala cópulas como una clase mucho más amplia de métricas de dependencia utilizadas en finanzas y gestión de riesgos, de las cuales la Pearson La correlación es sólo un tipo.

El departamento de Estadística de Columbia pasó el año académico 2013-2014 centrado en el desarrollo de una comprensión más profunda de las estructuras de dependencia: por ejemplo, lineales, no lineales, monotónicas, de rango, paramétricas, no paramétricas, potencialmente muy complejas y con grandes diferencias de escala. El año terminó con un taller y una conferencia de tres días que reunió a la mayoría de los principales colaboradores en este campo ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may-2 ).

Entre estos colaboradores se encontraban los hermanos Reshef, ahora famosos por un Ciencia papel Detección de nuevas asociaciones en grandes conjuntos de datos http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf que ha sido ampliamente criticado (véase AndrewGelman.com para una buena descripción, publicada simultáneamente con el evento de Columbia: http://andrewgelman.com/2014/03/14/maximal-information-coefficient ). Los Reshef abordaron todas estas críticas en su presentación (disponible en el sitio web de la conferencia de Columbia), así como un algoritmo MIC mucho más eficiente.

Muchos otros estadísticos de renombre se presentaron en este evento, incluyendo a Gabor Szekely, ahora en la NSF en DC. Szekely desarrolló su distancia y distancia parcial correlaciones. Deep Mukhopadhay, Temple U, presentando su Algoritmo estadístico unificado -- un marco para los algoritmos unificados de la ciencia de los datos -- basado en el trabajo realizado con Eugene Franzen http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ . Y muchos otros. Para mí, uno de los temas más interesantes fue el amplio aprovechamiento y uso del Espacio de Hilbert del Núcleo de Reproducción (RKHS) y el chi-cuadrado. Si hubo un enfoque modal de las estructuras de dependencia en esta conferencia, fue el RKHS.

Los típicos libros de texto de introducción a la estadística son someros en su tratamiento de la dependencia, y suelen basarse en presentaciones del mismo conjunto de visualizaciones de relaciones circulares o parabólicas. Los textos más sofisticados profundizan en Cuarteto de Anscombe Una visualización de cuatro conjuntos de datos diferentes con propiedades estadísticas simples y similares, pero con relaciones muy diferentes: https://en.wikipedia.org/wiki/Anscombe%27s_quartet

Uno de los grandes aspectos de este taller fue la multitud de estructuras y relaciones de dependencia que se visualizaron y presentaron, y que van mucho más allá del tratamiento estándar y superficial. Por ejemplo, los Reshef tenían docenas de gráficos en miniatura que representaban sólo una muestra de posibles no linealidades. Deep Mukhopadhay tenía impresionantes imágenes de relaciones muy complejas que parecían más bien una vista de satélite del Himalaya. Los autores de libros de texto de estadística y ciencia de datos deben tomar nota.

Al salir de la conferencia de Columbia con el desarrollo y la visualización de estas estructuras de dependencia altamente complejas por pares, me quedé cuestionando la capacidad de los modelos estadísticos multivariantes para captar estas no linealidades y complejidades.

7voto

Andrew Charneski Puntos 181

Depende de su definición exacta de "correlación", pero no es demasiado difícil construir casos degenerados. "Independiente" podría significar algo así como "ningún poder predictivo, en absoluto, nunca" tanto como "correlación lineal".

La correlación lineal, por ejemplo, no indicaría la dependencia de $y= \sin(2000x)$ si el dominio de $x$ fue $[0,1)$ .

5voto

David Puntos 41

Un ejemplo intuitivo sería un círculo. Tengo dos variables $X$ y $Y$ . Y son satisfacer la ecuación

$$X^2+Y^2=1$$

Ahora, $X$ y $Y$ definitivamente no son independientes entre sí, porque dado $X$ podemos calcular $Y$ y viceversa. Pero su coeficiente de correlación personal es $0$ . Esto se debe a que sólo capta la relación lineal entre dos variables.

4voto

user93729 Puntos 51

Básicamente, la dependencia de Y con respecto a X significa que la distribución de valores de Y depende de alguna manera del valor de X. Esa dependencia puede ser del valor medio de Y (el caso habitual que se presenta en la mayoría de las respuestas) o de cualquier otra característica de Y.

Por ejemplo, que X sea 0 o 1. Si X = 0 entonces que Y sea 0, si X= 1 que Y sea -1, 0 o 1 (misma probabilidad). X e Y no están correlacionados. En cuanto a la media, Y no depende de X porque sea cual sea el valor de X, la media de Y es 0. Pero es evidente que la distribución de los valores de Y depende del valor de X. En este caso, por ejemplo, la varianza de Y es 0 cuando X=0 y > 0 cuando X=1, por lo que existe, al menos, una dependencia de la varianza, es decir, hay una dependencia.

Así, la correlación lineal sólo muestra un tipo de dependencia de la media (dependencia lineal), que a su vez es sólo un caso especial de dependencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X