Loading [MathJax]/jax/element/mml/optable/Latin1Supplement.js

133 votos

¿Cómo explicarías la diferencia entre correlación y covarianza?

Continuando con esta pregunta, ¿Cómo explicarías la covarianza a alguien que solo entiende la media?, que aborda el tema de explicar la covarianza a una persona lega, surgió una pregunta similar en mi mente.

¿Cómo se explicaría a un neófito en estadística la diferencia entre covarianza y correlación? Parece que ambos se refieren al cambio en una variable relacionado con otra variable.

Al igual que en la pregunta mencionada, sería preferible no incluir fórmulas.

128voto

pkaeding Puntos 12935

El problema con las covarianzas es que son difíciles de comparar: cuando calculas la covarianza de un conjunto de alturas y pesos, expresados en (respectivamente) metros y kilogramos, obtendrás una covarianza diferente cuando lo hagas en otras unidades (¡lo que ya supone un problema para las personas que hacen lo mismo con o sin el sistema métrico!), pero también será difícil determinar si (por ejemplo) la altura y el peso 'covarían más' que, por ejemplo la longitud de tus dedos de los pies y dedos, simplemente porque la 'escala' sobre la que se calcula la covarianza es diferente.

La solución a esto es 'normalizar' la covarianza: divides la covarianza por algo que represente la diversidad y escala en ambos conceptos, y terminas con un valor que está asegurado de estar entre -1 y 1: la correlación. Sea cual sea la unidad en la que estaban tus variables originales, siempre obtendrás el mismo resultado, y esto también garantizará que puedas, hasta cierto punto, comparar si dos variables 'correlacionan' más que otras dos, simplemente comparando su correlación.

Nota: lo anterior asume que el lector ya entiende el concepto de covarianza.

4 votos

+1 ¿Quiso decir "correlación" en lugar de "covarianza" en la última oración?

1 votos

¿Estás seguro de que no puedes comparar covarianzas con diferentes unidades? Las unidades pasan a través de la covarianza multiplicada: si tu X está en cm y tu Y está en s, entonces tu cov(X,Y)=z cms. Y luego simplemente puedes multiplicar el resultado por el factor de conversión de unidades. Pruébalo en R: cov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)

5 votos

@naught101 Sospecho que el punto es que, si te dijera que Cov(X,Y)=1010 y nada más, no tendrías idea de si X es altamente predictivo de Y o no, mientras que si te dijera que Cor(X,Y)=.9 tendrías algo un poco más interpretable.

70voto

Judioo Puntos 625

Los requisitos de este tipo de preguntas me parecen un poco extraños. He aquí una matemáticas concepto/fórmula, pero quiero hablar de ello en un contexto completamente desprovisto de símbolos matemáticos. También creo que hay que decir que el álgebra real necesaria para entender las fórmulas, creo que debería enseñarse a la mayoría de las personas antes de la educación superior (no es necesario entender el álgebra matricial, basta con el álgebra simple).

Así que, en un primer momento, en lugar de ignorar completamente la fórmula y hablar de ella con algún tipo de analogía mágica y heurística, vamos a ver la fórmula e intentar explicar los componentes individuales en pequeños pasos. La diferencia en términos de covarianza y correlación, al mirar las fórmulas, debería quedar clara. Mientras que hablar en términos de analogías y heurística sospecho que oscurecería dos conceptos relativamente simples y sus diferencias en muchas situaciones.

Así que vamos a empezar con una fórmula para el covarianza de la muestra (estos los he tomado y adoptado de la wikipedia);

1N1ni=1(xiˉx)(yiˉy)

Para que todo el mundo se ponga al día, vamos a definir explícitamente todos los elementos y operaciones de la fórmula.

  • xi y yi son cada una de las medidas de dos atributos distintos de la misma observación
  • ˉx y ˉy son las medias (o promedios) de cada atributo
  • Para 1N1 Digamos que esto significa que dividimos el resultado final por N1 .
  • ni=1 puede ser un símbolo extraño para algunos, por lo que probablemente sería útil explicar esta operación. Se trata simplemente de la suma de todos los i observaciones separadas, y n representa el número total de observaciones.

En este punto, podría introducir un ejemplo sencillo, para ponerle cara a los elementos y operaciones, por así decirlo. Así que, por ejemplo, vamos a hacer una tabla, donde cada fila corresponde a una observación (y x y y están etiquetados adecuadamente). Es probable que estos ejemplos sean más específicos (por ejemplo, decir x representa la edad y y representa el peso), pero para nuestra discusión aquí no debería importar.

x y
---
2 5
4 8
9 3
5 6
0 8

En este punto, si crees que la operación de la suma en la fórmula no se ha comprendido del todo, puedes introducirla de nuevo en un contexto mucho más sencillo. Digamos que acaba de presentar que ni=1(xi) es lo mismo que decir en este ejemplo;

  x
 --
  2
  4
  9
  5
+ 0
 --
 20

Ahora, este lío debería estar aclarado y podemos pasar a la segunda parte de la fórmula, (xiˉx)(yiˉy) . Ahora, asumiendo que la gente ya sabe lo que significa, ˉx y ˉy Por el contrario, y siendo hipócrita con mis propios comentarios anteriores, uno puede referirse a la media en términos de heurística simple (por ejemplo, el centro de la distribución). Entonces, uno puede simplemente tomar este proceso una operación a la vez. La afirmación (xiˉx) es sólo examinar las desviaciones/distancia entre cada observación, y la media de todas las observaciones para ese atributo en particular. Por lo tanto, cuando una observación está más lejos de la media, esta operación tendrá un valor más alto. A continuación, se puede volver a la tabla de ejemplo dada, y simplemente demostrar la operación en el x vector de observaciones.

x x_bar (x - x_bar)
2 4     -2
4 4      0
9 4      5
5 4      1
0 4     -4

El funcionamiento es el mismo para y vector, pero sólo para reforzar puede presentar esa operación también.

y y_bar (y - y_bar)
5  6     -1
8  6      2
3  6     -3
6  6      0
8  6      2

Ahora, los términos (xiˉx) y (yiˉy) no debería ser ambiguo, y podemos pasar a la siguiente operación, multiplicando estos resultados juntos, (xiˉx)(yiˉy) . Como señala gung en los comentarios, esto se llama con frecuencia el producto cruzado (tal vez un ejemplo útil para traer de vuelta si uno estuviera introduciendo álgebra matricial básica para la estadística).

Fíjese en lo que ocurre al multiplicar, si dos observaciones están ambas a gran distancia por encima de la media, la observación resultante tendrá un valor positivo aún mayor (lo mismo ocurre si ambas observaciones están a gran distancia por debajo de la media, ya que la multiplicación de dos negativos es igual a un positivo). Observe también que si una observación está muy por encima de la media y la otra está muy por debajo de la media, el valor resultante será grande (en términos absolutos) y negativo (ya que un positivo por un negativo es igual a un número negativo). Por último, observe que cuando un valor está muy cerca de la media para cualquiera de las observaciones, la multiplicación de los dos valores dará como resultado un número pequeño. Una vez más, podemos presentar esta operación en una tabla.

(x - x_bar) (y - y_bar)  (x - x_bar)*(y - y_bar)
-2             -1                2
 0              2                0  
 5             -3              -15 
 1              0                0
-4              2               -8

Ahora bien, si hay algún estadístico en la sala debe estar hirviendo de expectación en este momento. Podemos ver todos los elementos separados de lo que es una covarianza, y cómo se calcula entran en juego. Ahora todo lo que tenemos que hacer es sumar el resultado final de la tabla anterior, dividir por N1 y voila La covarianza ya no debería ser mística (todo con sólo definir un símbolo griego).

(x - x_bar)*(y - y_bar)
-----------------------
   2
   0
 -15
   0
+ -8
-----
 -21

-21/(5-1) = -5.25

En este punto puede querer reforzar de dónde viene el 5, pero eso debería ser tan sencillo como volver a la tabla y contar el número de observaciones (dejemos de nuevo la diferencia entre muestra y población para otro momento).

Ahora bien, la covarianza en sí misma no nos dice mucho (puede, pero es innecesario en este momento entrar en ningún ejemplo interesante sin recurrir a referencias mágicas e indefinidas a la audiencia). En un buen caso, no necesitarás realmente vender por qué debería importarnos cuál es la covarianza; en otras circunstancias, puede que sólo tengas que esperar que tu audiencia esté cautiva y te tome la palabra. Pero, continuando con el desarrollo de la diferencia entre lo que es la covarianza y lo que es la correlación, podemos remitirnos a la fórmula de la correlación. Para evitar la fobia a los símbolos griegos, podemos decir simplemente ρ es el símbolo común utilizado para representar la correlación.

ρ=Cov(x,y)Var(x)Var(y)

De nuevo, para reiterar, el numerador en la fórmula anterior es simplemente la covarianza como acabamos de definir, y el denominador es la raíz cuadrada del producto de los desviación de cada serie individual. Si se necesita definir la varianza en sí, se puede decir simplemente que la varianza es lo mismo que la covarianza de una serie consigo misma (es decir Cov(x,x)=Var(x) ). Y se aplican los mismos conceptos que introdujiste con la covarianza (es decir, si una serie tiene muchos valores alejados de su media, tendrá una varianza alta). Tal vez, aquí se note que una serie no puede tener una varianza negativa también (lo que debería seguirse lógicamente de las matemáticas presentadas anteriormente).

Así que los únicos componentes nuevos que hemos introducido están en el denominador, Var(x)Var(y) . Así que estamos dividiendo la covarianza que acabamos de calcular por el producto de las varianzas de cada serie. Se podría entrar en el tratamiento sobre por qué dividir por Var(x)Var(y) siempre dará como resultado un valor entre -1 y 1, pero sospecho que la desigualdad de Cauchy-Schwarz debería quedar fuera de la agenda de esta discusión. Así que de nuevo, soy un hipócrita y recurro a algunos, créanme pero en este punto podemos introducir todas las razones por las que utilizamos el coeficiente de correlación. A continuación, se pueden relacionar estas lecciones matemáticas con las heurísticas que se han dado en los otros enunciados, como Respuesta de Peter Flom a una de las otras preguntas. Aunque se criticó que se introdujera el concepto en términos de afirmaciones causales, esa lección también debería estar en el programa en algún momento.

Entiendo que en algunas circunstancias este nivel de tratamiento no sería apropiado. El Senado necesita el resumen ejecutivo . En ese caso, bueno, puedes remitirte a la heurística simple que la gente ha estado utilizando en otros ejemplos, pero Roma no se construyó en un día. Y al senado que pide el resumen ejecutivo, si tiene tan poco tiempo quizás debería tomar mi palabra y prescindir de las formalidades de las analogías y las viñetas.

5 votos

Estoy completamente de acuerdo con la idea de que la pregunta está de alguna manera fuera del propósito de este foro. La definición de covarianza como cov(X,Y)=E[(XE[X])(YE[Y])] es la explicación más clara que se puede proponer. Solo utiliza la noción de expectativa. Evitar la fórmula lleva a versiones necesariamente incompletas y potencialmente engañosas. Y esto no puede proporcionar al lector los medios para calcular la covarianza/correlación en una nueva situación. No es la mejor manera de luchar contra el analfabetismo numérico.

17 votos

+1, esto es bastante bueno. Sin embargo, no sería tan crítico con las introducciones conceptuales. He trabajado con personas con suficiente ansiedad matemática como para perderlas al mostrarles una fórmula. Normalmente los pongo al día primero con la intuición, y luego explico las matemáticas de manera simple y completa (como haces aquí) después. De esa manera, solo están aprendiendo cómo las matemáticas representan lo que ya saben, y si se desconectan mentalmente, aún habrán aprendido las ideas principales. Como punto tangencial, trabajo las matemáticas en Excel, lo cual encuentro muy bueno para esto.

3 votos

Un par de observaciones menores (disculpa): en tu primera ecuación, divides por N, pero luego (correctamente) discutes dividir por N-1 en el punto de viñeta asociado; podría señalar que (x_i-\bar{x})(y_i-\bar{y})$ se llama "producto cruzado"; dado que has estado hablando de la covarianza de la muestra, cuando llegues a la correlación, podría omitir la información sobre \rho y simplemente usar r; por último, la correlación se calcula a partir de la covarianza escalándola en relación con las DE, no con las varianzas, consulta aquí, p. ej.

14voto

D Dawg Puntos 1

La correlación (r) es la covarianza (cov) de tus variables (x e y) dividida por (o ajustada por, en otras palabras) cada una de sus desviaciones estándar (\sqrt{Var[x]Var[y]}).

Es decir, la correlación es simplemente una representación de la covarianza, por lo que el resultado debe estar entre -1 (perfectamente correlacionado de forma inversa) y +1 (perfectamente correlacionado de forma positiva), señalando que un valor cercano a cero significa que dos variables no están correlacionadas.

La covarianza no tiene límites y carece de contexto al compararse con otras covarianzas. Al normalizar/ajustar/estandarizar covarianzas en una correlación, los conjuntos de datos pueden compararse más fácilmente.

Como puedes imaginar, hay diferentes formas en las que se puede normalizar/estandarizar una estadística (como la covarianza). La fórmula matemática para la relación entre correlación y covarianza simplemente refleja la convención que usan los estadísticos (es decir, ajustar según sus desviaciones estándar):

r = \frac{cov(x,y)}{\sqrt{Var[x]Var[y]}}

5voto

user31180 Puntos 21

Si estás familiarizado con la idea de centrar y estandarizar, x-xbar es para centrar x en su media. Lo mismo se aplica a y. Entonces, la covarianza simplemente centra los datos. Sin embargo, la correlación no solo centra los datos sino que también escala usando la desviación estándar (estandariza). La multiplicación y la suma es el producto punto de los dos vectores y nos dice qué tan paralelos estos dos vectores se comparan entre sí (la proyección de un vector sobre el otro). La división de (n-1) o tomar el valor esperado es para escalar según el número de observaciones. ¿Qué opinas?

4voto

Karl Morrison Puntos 183

Según lo que he entendido, la correlación es una versión "normalizada" de la covarianza.

2 votos

Como muchas publicaciones lo atestiguan, "normalizar" tiene muchos significados diferentes. ¿Cuál estás usando?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X