¿Cómo explicarías la diferencia entre correlación y covarianza?

Question

¿Cómo explicarías la diferencia entre correlación y covarianza?

Preguntado el 8 de Noviembre, 2011: Cuando se hizo la pregunta
53017 visitas: Cuantas visitas ha tenido la pregunta
5 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Continuando con esta pregunta, ¿Cómo explicarías la covarianza a alguien que solo entiende la media?, que aborda el tema de explicar la covarianza a una persona lega, surgió una pregunta similar en mi mente.

¿Cómo se explicaría a un neófito en estadística la diferencia entre covarianza y correlación? Parece que ambos se refieren al cambio en una variable relacionado con otra variable.

Al igual que en la pregunta mencionada, sería preferible no incluir fórmulas.

Preguntado el 8 de Noviembre, 2011 por pmgjones

Answer 1

5 Respuestas

Answer 2

128voto

pkaeding Puntos 12935

El problema con las covarianzas es que son difíciles de comparar: cuando calculas la covarianza de un conjunto de alturas y pesos, expresados en (respectivamente) metros y kilogramos, obtendrás una covarianza diferente cuando lo hagas en otras unidades (¡lo que ya supone un problema para las personas que hacen lo mismo con o sin el sistema métrico!), pero también será difícil determinar si (por ejemplo) la altura y el peso 'covarían más' que, por ejemplo la longitud de tus dedos de los pies y dedos, simplemente porque la 'escala' sobre la que se calcula la covarianza es diferente.

La solución a esto es 'normalizar' la covarianza: divides la covarianza por algo que represente la diversidad y escala en ambos conceptos, y terminas con un valor que está asegurado de estar entre -1 y 1: la correlación. Sea cual sea la unidad en la que estaban tus variables originales, siempre obtendrás el mismo resultado, y esto también garantizará que puedas, hasta cierto punto, comparar si dos variables 'correlacionan' más que otras dos, simplemente comparando su correlación.

Nota: lo anterior asume que el lector ya entiende el concepto de covarianza.

Respondido el 8 de Noviembre, 2011 por pkaeding (12935 Puntos )

4 votos

+1 ¿Quiso decir "correlación" en lugar de "covarianza" en la última oración?

Comentado el 8 de Noviembre, 2011 por jldugger

1 votos

¿Estás seguro de que no puedes comparar covarianzas con diferentes unidades? Las unidades pasan a través de la covarianza multiplicada: si tu X está en cm y tu Y está en s, entonces tu $cov(X,Y)=z\ cm\cdot s$ . Y luego simplemente puedes multiplicar el resultado por el factor de conversión de unidades. Pruébalo en R: cov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)

Comentado el 18 de Mayo, 2012 por Juriy

5 votos

@naught101 Sospecho que el punto es que, si te dijera que $\mbox{Cov}(X, Y) = 10^{10}$ y nada más, no tendrías idea de si $X$ es altamente predictivo de $Y$ o no, mientras que si te dijera que $\mbox{Cor}(X, Y) = .9$ tendrías algo un poco más interpretable.

Comentado el 20 de Diciembre, 2013 por Andre Miller

Mostrar 4 comentarios más

Answer 3

70voto

Judioo Puntos 625

Los requisitos de este tipo de preguntas me parecen un poco extraños. He aquí una matemáticas concepto/fórmula, pero quiero hablar de ello en un contexto completamente desprovisto de símbolos matemáticos. También creo que hay que decir que el álgebra real necesaria para entender las fórmulas, creo que debería enseñarse a la mayoría de las personas antes de la educación superior (no es necesario entender el álgebra matricial, basta con el álgebra simple).

Así que, en un primer momento, en lugar de ignorar completamente la fórmula y hablar de ella con algún tipo de analogía mágica y heurística, vamos a ver la fórmula e intentar explicar los componentes individuales en pequeños pasos. La diferencia en términos de covarianza y correlación, al mirar las fórmulas, debería quedar clara. Mientras que hablar en términos de analogías y heurística sospecho que oscurecería dos conceptos relativamente simples y sus diferencias en muchas situaciones.

Así que vamos a empezar con una fórmula para el covarianza de la muestra (estos los he tomado y adoptado de la wikipedia);

$\frac{1}{N-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})$

Para que todo el mundo se ponga al día, vamos a definir explícitamente todos los elementos y operaciones de la fórmula.

$x_i$ y $y_i$ son cada una de las medidas de dos atributos distintos de la misma observación
$\bar{x}$ y $\bar{y}$ son las medias (o promedios) de cada atributo
Para $\frac{1}{N-1}$ Digamos que esto significa que dividimos el resultado final por ${N-1}$ .
$\sum_{i=1}^{n}$ puede ser un símbolo extraño para algunos, por lo que probablemente sería útil explicar esta operación. Se trata simplemente de la suma de todos los $i$ observaciones separadas, y $n$ representa el número total de observaciones.

En este punto, podría introducir un ejemplo sencillo, para ponerle cara a los elementos y operaciones, por así decirlo. Así que, por ejemplo, vamos a hacer una tabla, donde cada fila corresponde a una observación (y $x$ y $y$ están etiquetados adecuadamente). Es probable que estos ejemplos sean más específicos (por ejemplo, decir $x$ representa la edad y $y$ representa el peso), pero para nuestra discusión aquí no debería importar.

En este punto, si crees que la operación de la suma en la fórmula no se ha comprendido del todo, puedes introducirla de nuevo en un contexto mucho más sencillo. Digamos que acaba de presentar que $\sum_{i=1}^{n}(x_i)$ es lo mismo que decir en este ejemplo;

Ahora, este lío debería estar aclarado y podemos pasar a la segunda parte de la fórmula, $(x_i-\bar{x})(y_i-\bar{y})$ . Ahora, asumiendo que la gente ya sabe lo que significa, $\bar{x}$ y $\bar{y}$ Por el contrario, y siendo hipócrita con mis propios comentarios anteriores, uno puede referirse a la media en términos de heurística simple (por ejemplo, el centro de la distribución). Entonces, uno puede simplemente tomar este proceso una operación a la vez. La afirmación $(x_i-\bar{x})$ es sólo examinar las desviaciones/distancia entre cada observación, y la media de todas las observaciones para ese atributo en particular. Por lo tanto, cuando una observación está más lejos de la media, esta operación tendrá un valor más alto. A continuación, se puede volver a la tabla de ejemplo dada, y simplemente demostrar la operación en el $x$ vector de observaciones.

x x_bar (x - x_bar)
2 4     -2
4 4      0
9 4      5
5 4      1
0 4     -4

El funcionamiento es el mismo para $y$ vector, pero sólo para reforzar puede presentar esa operación también.

y y_bar (y - y_bar)
5  6     -1
8  6      2
3  6     -3
6  6      0
8  6      2

Ahora, los términos $(x_i-\bar{x})$ y $(y_i-\bar{y})$ no debería ser ambiguo, y podemos pasar a la siguiente operación, multiplicando estos resultados juntos, $(x_i-\bar{x})\cdot(y_i-\bar{y})$ . Como señala gung en los comentarios, esto se llama con frecuencia el producto cruzado (tal vez un ejemplo útil para traer de vuelta si uno estuviera introduciendo álgebra matricial básica para la estadística).

Fíjese en lo que ocurre al multiplicar, si dos observaciones están ambas a gran distancia por encima de la media, la observación resultante tendrá un valor positivo aún mayor (lo mismo ocurre si ambas observaciones están a gran distancia por debajo de la media, ya que la multiplicación de dos negativos es igual a un positivo). Observe también que si una observación está muy por encima de la media y la otra está muy por debajo de la media, el valor resultante será grande (en términos absolutos) y negativo (ya que un positivo por un negativo es igual a un número negativo). Por último, observe que cuando un valor está muy cerca de la media para cualquiera de las observaciones, la multiplicación de los dos valores dará como resultado un número pequeño. Una vez más, podemos presentar esta operación en una tabla.

(x - x_bar) (y - y_bar)  (x - x_bar)*(y - y_bar)
-2             -1                2
 0              2                0  
 5             -3              -15 
 1              0                0
-4              2               -8

Ahora bien, si hay algún estadístico en la sala debe estar hirviendo de expectación en este momento. Podemos ver todos los elementos separados de lo que es una covarianza, y cómo se calcula entran en juego. Ahora todo lo que tenemos que hacer es sumar el resultado final de la tabla anterior, dividir por $N-1$ y voila La covarianza ya no debería ser mística (todo con sólo definir un símbolo griego).

(x - x_bar)*(y - y_bar)
-----------------------
   2
   0
 -15
   0
+ -8
-----
 -21

-21/(5-1) = -5.25

En este punto puede querer reforzar de dónde viene el 5, pero eso debería ser tan sencillo como volver a la tabla y contar el número de observaciones (dejemos de nuevo la diferencia entre muestra y población para otro momento).

Ahora bien, la covarianza en sí misma no nos dice mucho (puede, pero es innecesario en este momento entrar en ningún ejemplo interesante sin recurrir a referencias mágicas e indefinidas a la audiencia). En un buen caso, no necesitarás realmente vender por qué debería importarnos cuál es la covarianza; en otras circunstancias, puede que sólo tengas que esperar que tu audiencia esté cautiva y te tome la palabra. Pero, continuando con el desarrollo de la diferencia entre lo que es la covarianza y lo que es la correlación, podemos remitirnos a la fórmula de la correlación. Para evitar la fobia a los símbolos griegos, podemos decir simplemente $\rho$ es el símbolo común utilizado para representar la correlación.

$\rho = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}$

De nuevo, para reiterar, el numerador en la fórmula anterior es simplemente la covarianza como acabamos de definir, y el denominador es la raíz cuadrada del producto de los desviación de cada serie individual. Si se necesita definir la varianza en sí, se puede decir simplemente que la varianza es lo mismo que la covarianza de una serie consigo misma (es decir $Cov(x,x) = Var(x)$ ). Y se aplican los mismos conceptos que introdujiste con la covarianza (es decir, si una serie tiene muchos valores alejados de su media, tendrá una varianza alta). Tal vez, aquí se note que una serie no puede tener una varianza negativa también (lo que debería seguirse lógicamente de las matemáticas presentadas anteriormente).

Así que los únicos componentes nuevos que hemos introducido están en el denominador, $Var(x)Var(y)$ . Así que estamos dividiendo la covarianza que acabamos de calcular por el producto de las varianzas de cada serie. Se podría entrar en el tratamiento sobre por qué dividir por $\sqrt{Var(x)Var(y)}$ siempre dará como resultado un valor entre -1 y 1, pero sospecho que la desigualdad de Cauchy-Schwarz debería quedar fuera de la agenda de esta discusión. Así que de nuevo, soy un hipócrita y recurro a algunos, créanme pero en este punto podemos introducir todas las razones por las que utilizamos el coeficiente de correlación. A continuación, se pueden relacionar estas lecciones matemáticas con las heurísticas que se han dado en los otros enunciados, como Respuesta de Peter Flom a una de las otras preguntas. Aunque se criticó que se introdujera el concepto en términos de afirmaciones causales, esa lección también debería estar en el programa en algún momento.

Entiendo que en algunas circunstancias este nivel de tratamiento no sería apropiado. El Senado necesita el resumen ejecutivo . En ese caso, bueno, puedes remitirte a la heurística simple que la gente ha estado utilizando en otros ejemplos, pero Roma no se construyó en un día. Y al senado que pide el resumen ejecutivo, si tiene tan poco tiempo quizás debería tomar mi palabra y prescindir de las formalidades de las analogías y las viñetas.

Respondido el 8 de Noviembre, 2011 por Judioo (625 Puntos )

5 votos

Estoy completamente de acuerdo con la idea de que la pregunta está de alguna manera fuera del propósito de este foro. La definición de covarianza como $\text{cov}(X,Y)=\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])]$ es la explicación más clara que se puede proponer. Solo utiliza la noción de expectativa. Evitar la fórmula lleva a versiones necesariamente incompletas y potencialmente engañosas. Y esto no puede proporcionar al lector los medios para calcular la covarianza/correlación en una nueva situación. No es la mejor manera de luchar contra el analfabetismo numérico.

Comentado el 10 de Noviembre, 2011 por Lev

17 votos

+1, esto es bastante bueno. Sin embargo, no sería tan crítico con las introducciones conceptuales. He trabajado con personas con suficiente ansiedad matemática como para perderlas al mostrarles una fórmula. Normalmente los pongo al día primero con la intuición, y luego explico las matemáticas de manera simple y completa (como haces aquí) después. De esa manera, solo están aprendiendo cómo las matemáticas representan lo que ya saben, y si se desconectan mentalmente, aún habrán aprendido las ideas principales. Como punto tangencial, trabajo las matemáticas en Excel, lo cual encuentro muy bueno para esto.

Comentado el 17 de Mayo, 2012 por Sean Hanley

3 votos

Un par de observaciones menores (disculpa): en tu primera ecuación, divides por $N$ , pero luego (correctamente) discutes dividir por $N-1 en el punto de viñeta asociado; podría señalar que$ (x_i-\bar{x})(y_i-\bar{y})$ se llama "producto cruzado"; dado que has estado hablando de la covarianza de la muestra, cuando llegues a la correlación, podría omitir la información sobre $\rho$ y simplemente usar $r$ ; por último, la correlación se calcula a partir de la covarianza escalándola en relación con las DE, no con las varianzas, consulta aquí, p. ej.

Comentado el 17 de Mayo, 2012 por Sean Hanley

Mostrar 8 comentarios más

Answer 4

14voto

D Dawg Puntos 1

La correlación (r) es la covarianza (cov) de tus variables (x e y) dividida por (o ajustada por, en otras palabras) cada una de sus desviaciones estándar ( $\sqrt{Var[x]Var[y]}$ ).

Es decir, la correlación es simplemente una representación de la covarianza, por lo que el resultado debe estar entre -1 (perfectamente correlacionado de forma inversa) y +1 (perfectamente correlacionado de forma positiva), señalando que un valor cercano a cero significa que dos variables no están correlacionadas.

La covarianza no tiene límites y carece de contexto al compararse con otras covarianzas. Al normalizar/ajustar/estandarizar covarianzas en una correlación, los conjuntos de datos pueden compararse más fácilmente.

Como puedes imaginar, hay diferentes formas en las que se puede normalizar/estandarizar una estadística (como la covarianza). La fórmula matemática para la relación entre correlación y covarianza simplemente refleja la convención que usan los estadísticos (es decir, ajustar según sus desviaciones estándar):

$r = \frac{cov(x,y)}{\sqrt{Var[x]Var[y]}}$

Respondido el 15 de Noviembre, 2015 por D Dawg (1 Puntos )

Answer 5

5voto

user31180 Puntos 21

Si estás familiarizado con la idea de centrar y estandarizar, x-xbar es para centrar x en su media. Lo mismo se aplica a y. Entonces, la covarianza simplemente centra los datos. Sin embargo, la correlación no solo centra los datos sino que también escala usando la desviación estándar (estandariza). La multiplicación y la suma es el producto punto de los dos vectores y nos dice qué tan paralelos estos dos vectores se comparan entre sí (la proyección de un vector sobre el otro). La división de (n-1) o tomar el valor esperado es para escalar según el número de observaciones. ¿Qué opinas?

Respondido el 19 de Diciembre, 2013 por user31180 (21 Puntos )

Answer 6

4voto

Karl Morrison Puntos 183

Según lo que he entendido, la correlación es una versión "normalizada" de la covarianza.

Respondido el 29 de Julio, 2015 por Karl Morrison (183 Puntos )

2 votos

Como muchas publicaciones lo atestiguan, "normalizar" tiene muchos significados diferentes. ¿Cuál estás usando?

Comentado el 30 de Julio, 2015 por jldugger

¿Cómo explicarías la diferencia entre correlación y covarianza?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cómo explicarías la diferencia entre correlación y covarianza?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: