Para ampliar mi comentario, yo solía enseñar la covarianza como una medida de la covariación (media) entre dos variables, digamos $x$ y $y$ .
Es útil recordar la fórmula básica (sencilla de explicar, no hace falta hablar de expectativas matemáticas para un curso introductorio):
$$ \text{cov}(x,y)=\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y) $$
para que veamos claramente que cada observación $(x_i,y_i)$ pueden contribuir positiva o negativamente a la covarianza, dependiendo del producto de su desviación de la media de las dos variables, $\bar x$ y $\bar y$ . Nótese que aquí no hablo de magnitud, sino simplemente del signo de la contribución de la i-ésima observación.
Esto es lo que he representado en los siguientes diagramas. Los datos artificiales se generaron utilizando un modelo lineal (izquierda, $y = 1.2x + \varepsilon$ ; derecha, $y = 0.1x + \varepsilon$ , donde $\varepsilon$ se extrajeron de una distribución gaussiana con media cero y $\text{SD}=2$ y $x$ de una distribución uniforme en el intervalo $[0,20]$ ).
Las barras verticales y horizontales representan la media de $x$ y $y$ respectivamente. Eso significa que en lugar de "mirar las observaciones individuales" desde el origen $(0,0)$ podemos hacerlo desde $(\bar x, \bar y)$ . Esto equivale a una traslación en los ejes x e y. En este nuevo sistema de coordenadas, toda observación situada en el cuadrante superior derecho o inferior izquierdo contribuye positivamente a la covarianza, mientras que las observaciones situadas en los otros dos cuadrantes contribuyen negativamente a ella. En el primer caso (izquierda), la covarianza es igual a 30,11 y la distribución en los cuatro cuadrantes se da a continuación:
+ -
+ 30 2
- 0 28
Evidentemente, cuando el $x_i$ están por encima de su media, también lo hacen los correspondientes $y_i$ 's (wrt. $\bar y$ ). La forma de la nube de puntos en 2D, cuando $x$ los valores aumentan $y$ los valores tienden a aumentar también. (Pero recuerda que también podríamos utilizar el hecho de que existe una clara relación entre la covarianza y la pendiente de la recta de regresión, es decir $b=\text{Cov}(x,y)/\text{Var}(x)$ .)
En el segundo caso (a la derecha, el mismo $x_i$ ), la covarianza es igual a 3,54 y la distribución entre cuadrantes es más "homogénea", como se muestra a continuación:
+ -
+ 18 14
- 12 16
En otras palabras, hay un mayor número de casos en los que el $x_i$ y $y_i$ no covarían en la misma dirección con respecto a sus medias.
Obsérvese que podríamos reducir la covarianza escalando cualquiera de los dos $x$ o $y$ . En el panel izquierdo, la covarianza de $(x/10,y)$ (o $(x,y/10)$ ) se reduce en una cantidad diez veces mayor (3,01). Dado que las unidades de medida y la dispersión de $x$ y $y$ (en relación con sus medias) dificultan la interpretación del valor de la covarianza en términos absolutos, generalmente escalamos ambas variables por sus desviaciones estándar y obtenemos el coeficiente de correlación. Esto significa que, además de volver a centrar nuestra $(x,y)$ gráfico de dispersión a $(\bar x, \bar y)$ también escalamos la unidad x e y en términos de desviación estándar, lo que conduce a una medida más interpretable de la covariación lineal entre $x$ y $y$ .
2 votos
@Xi'an - "cómo" lo definirías exactamente mediante una regresión lineal simple ? Me gustaría saberlo...
4 votos
Suponiendo que ya tienes un gráfico de dispersión de tus dos variables, x contra. y, con el origen en (0,0), simplemente dibuje dos líneas en x=media(x) (vertical) e y=media(x) (horizontal): utilizando este nuevo sistema de coordenadas (el origen está en (media(x),media(y)), ponga un signo "+" en los cuadrantes superior derecho e inferior izquierdo, un signo "-" en los otros dos cuadrantes; obtuvo el signo de la covarianza, que es básicamente lo que dijo @Peter . El escalado de las unidades x e y (por SD) conduce a un resumen más interpretable, como se discute en el hilo conductor .
2 votos
@chl - ¡podría publicar eso como respuesta y tal vez usar gráficos para representarlo!
1 votos
El vídeo de esta página web me ha ayudado, ya que prefiero las imágenes a las explicaciones abstractas. Página web con vídeo Concretamente esta imagen: ![introduzca aquí la descripción de la imagen](http://i.stack.imgur.com/xGZFv.png) \