3 votos

Dudas sobre la definición de covarianza

Dada la definición general de Covarianza entre dos variables aleatorias $x$ y $y$ : \begin{equation*} \text{Cov}(x,y)=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) \end{equation*} ¿Supone implícitamente la definición anterior que toda observación bivariante $(x_i,y_i)$ tiene la misma frecuencia relativa, es decir, igual a $\frac{1}{n}$ ?

Yo esperaría que para observaciones bivariadas con diferente frecuencia relativa, la definición anterior (dado que el conjunto de valores de la variable aleatoria componente $x$ tiene $r$ mientras que el de $y$ tiene $s$ valores) pasaría a ser igual a: \begin{equation} \text{Cov}(x,y)=\sum_{i=1}^r\sum_{j=1}^sf_{x,y}(x_i,y_i)(x_i-\bar{x})(y_i-\bar{y}) \end{equation} con $f_{x,y}(x_i,y_i)$ denota la frecuencia relativa del par $(x_i, y_i)$ .

¿Es correcto mi razonamiento o estoy equivocado? ¿Por qué?

9voto

Dipstick Puntos 4869

Confundes el estimador de la covarianza con la covarianza en sí. Covarianza se define como

$$ \operatorname{cov}(X, Y) = \operatorname{E}{\big[(X - \operatorname{E}[X])(Y - \operatorname{E}[Y])\big]} $$

Dónde $X$ y $Y$ son variables aleatorias y calculando los valores esperados obtenemos do considerar sus distribuciones y probabilidades relativas al calcular las integrales para obtener valores esperados

$$ \operatorname{E}[X] = \int x f(x)\, dx $$

Como ha notado @BigBendRegion en el comentario, es más fácil mostrar para la media como un estimador para el valor esperado. Para datos discretos, el valor esperado se define como

$$ E[X] = \sum_i x_i p_i $$

Si se quiere estimar a partir de la muestra, el problema es que no se conoce la $P(X = x_i) = p_i$ probabilidades. Puede estimarlas a partir de la muestra observando las frecuencias relativas $\tfrac{n_i}{n}$ donde $n_i$ es el recuento de cuántas veces observó $x_i$ ( aviso: esto es no $i$ -ésima muestra, pero $i$ -ésimo valor distinto) en su muestra, con $n = \sum_i n_i$ . En tal caso,

$$ \sum_i x_i \tfrac{n_i}{n} = \sum_i \,x_i n_i \tfrac{1}{n} $$

es lo mismo que si repitiera el $\tfrac{1}{n} x_i$ operación $n_i$ veces en la suma. Por tanto, utilizar la media aritmética es lo mismo que si se calcularan las frecuencias relativas $\hat p_i = \tfrac{n_i}{n}$ y los utilizó para calcular $\sum_i x_i \hat p_i$ . Ocurre exactamente lo mismo con la covarianza muestral, pero las matemáticas son un poco más complicadas.

7voto

Dave Puntos 76

Interpreto esto como que eres infeliz si tienes un conjunto de datos como este.

$$ X, Y\\ 1,1\\ 2,3\\ 1,1\\ 0, -1 $$

En este caso, el $(1,1)$ se repite, por lo que conviene ponderarlo al doble. Sin embargo, eso está cubierto por la fórmula.

$$ cov(X, Y) = \frac{1}{4}\sum_{i = 1}^4 (X_i - \bar X)(Y_i-\bar Y)\\ =\dfrac{(1-1)(1-1) + (2 - 1)(3 - 1) + (1 - 1)(1 - 1) + (0 - 1)(\text{-}1 - 1) }{4} $$

Los valores se repiten en la suma, por lo que no es necesario ponderar las observaciones en función del número de veces que aparecen.

0voto

jgradim Puntos 1143

El uso del alfabeto romano en lugar del griego implica que estamos hablando de observaciones muestrales y no de la población. En una muestra, cada observación tiene de hecho la misma frecuencia relativa (si el mismo par de valores aparece más de una vez, seguirán siendo observaciones diferentes, y cada una de esas observaciones aparece una vez). Sin embargo, si la media se estima mediante $\bar x$ en lugar de ser conocido, entonces $\frac 1{N-1}$ en lugar de $\frac 1 N$ se utiliza.

Para la covarianza de la población, la fórmula es $\int \int p(x,y)(x-\mu_x)(y-\mu_y)dxdy$ que para una distribución discreta se reduce a $\sum \sum p(x,y)(x-\mu_x)(y-\mu_y)$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X