4 votos

En $cov(x,y)=cov(x,x)=cov(y,y)$ implica $x=y$ ?

Dadas dos variables aleatorias, puedes calcular su matriz de covarianza. Me he dado cuenta de que si grafico los datos (en mi caso normales multivariables) que provienen de una matriz de covarianza cuyos elementos son todos iguales, por ejemplo

$\begin{pmatrix} 100 & 100 \\ 100 & 100 \end{pmatrix}$

Obtendrás una línea recta, por ejemplo, en python:

data = np.random.multivariate_normal([0,0], [[100,100],[100,100]], 1000)
plt.scatter(data[:,0], data[:,1])

enter image description here

Me pregunto si esto implica que $x=y$ ?

Además, ¿puede darse el caso de que $cov(x,y) = cov(x,x) \ne cov(y,y)$ y si es así, ¿hay alguna idea sobre lo que está pasando allí?

5voto

RossC Puntos 3725

No del todo. Como ejemplo, tomemos

$$ X\sim\mathcal{N}(0, 100) \\ Y = X+3, $$

o, de forma equivalente,

$$ \left[\begin{array}{c} X \\ Y\end{array}\right]\sim\mathcal{N}\bigg(\left[\begin{array}{c} 0 \\ 3\end{array}\right], \left[\begin{array}{cc} 100 & 100 \\ 100 & 100\end{array}\right]\bigg). $$

Entonces tenemos $Var(X) = Var(Y) = Cov(X, Y) = 100$ pero $X$ y $Y$ no son iguales ( $Y$ es siempre 3 mayor que $X$ ).

Aunque este ejemplo muestra que $Var(X)=Var(Y)=Cov(X,Y)$ no implica $X=Y$ sí implica (con probabilidad 1) que $X$ y $Y$ difieren en alguna constante $c$ . La matriz de covarianza no se puede utilizar para determinar cuál es esa constante - se necesitaría conocer también las medias para conocer la constante.


En cuanto a su segunda pregunta, es bastante común tener $Var(X) = Cov(X, Y) \neq Var(Y)$ Y no hay nada particularmente especial en esta situación. Todo lo que representa son dos variables aleatorias con diferentes varianzas y una cantidad moderada de correlación. Por ejemplo, las siguientes son dos variables aleatorias normales con diferentes varianzas y una correlación de 0,1.

$$ \left[\begin{array}{c} X \\ Y\end{array}\right]\sim\mathcal{N}\bigg(\left[\begin{array}{c} 0 \\ 0\end{array}\right], \left[\begin{array}{cc} 1 & 1 \\ 1 & 100\end{array}\right]\bigg). $$

4voto

masoud Puntos 70

Una pista: $$Var(X-Y)=Var(X)+Var(Y)-2cou(X,Y)$$

y $Var(X-Y)=E\bigg((X-Y)-E(X-Y)\bigg)^2=0$

así que $P\{(X-Y)-E(X-Y)=0\}=1$ así que $X-Y$ constante casi huraña

1voto

Paulius Puntos 369

Quiero discutir por qué observaste todos los datos en la línea particular que lo hiciste.


$\newcommand{\1}{\mathbf 1}$ Si tienes una variable aleatoria $X \sim \mathcal N(\mathbf 0, \Sigma)$ donde $\Sigma$ tiene todos el mismo elemento, entonces $\Sigma \propto \1\1^T$ por lo que tiene un rango $1$ matriz de covarianza.

Consideraré el problema más general de lo que significa tener una gaussiana multivariante con una matriz de covarianza de bajo rango. Supongamos que $X \sim\mathcal N_p(\mathbf 0, \Sigma)$ y $1 \leq \text{rank}(\Sigma) := r < p$ . Podemos factorizar $\Sigma$ como $$ \Sigma = \tilde Q\tilde \Lambda \tilde Q^T $$ mediante el teorema espectral con $\Lambda = \text{diag}(\lambda_1,\dots,\lambda_r, 0, \dots, 0)$ . Esto significa que $\Sigma$ puede representarse en realidad como $$ \Sigma = Q\Lambda Q^T $$ donde $Q$ es la primera $r$ columnas de $\tilde Q$ y $\Lambda = \text{diag}(\lambda_1,\dots,\lambda_r)$ contiene los valores propios no nulos.

Dejemos que $Z \sim \mathcal N_r(\mathbf 0, I)$ y definir $$ Y = Q\Lambda^{1/2}Z. $$ $Y$ es una transformación lineal de una gaussiana, por lo que también es gaussiana, y $$ \text{E}(Y) = \mathbf 0 \\ \text{Var}(Y) = Q\Lambda^{1/2}\Lambda^{1/2}Q^T = \Sigma $$ así que $Y \sim \mathcal N(\mathbf 0, \Sigma) \stackrel{\text d}= X$ .

Esto demuestra que podemos pensar en $X$ como generada por una gaussiana de baja dimensión que mapeamos en nuestro espacio de alta dimensión, y esto explica por qué todavía hay aleatoriedad pero no sobre todo el $\mathbb R^p$ . En particular, $X$ se limita a la $r$ -espacio de columnas de $Q$ .

En su caso tenemos $\Sigma \propto \1\1^T$ lo que significa que $r=1$ y $Q = p^{-1/2}\mathbf 1$ . Esto demuestra que $X \in \text{span}(\1)$ que es lo que has observado.


Un último comentario: estos gaussianos con matrices de covarianza de bajo rango no tienen pdfs en el sentido habitual porque $P(X \in \text{ColSpace}(Q)) = 1$ pero la medida de Lebesgue de $\text{ColSpace}(Q)$ es cero con respecto a la medida de Lebesgue en $\mathbb R^p$ . Esta es una de las ventajas de definir una gaussiana multivariante como una variable aleatoria en la que cada combinación lineal es gaussiana, ya que entonces no hay problema con las matrices de covarianza de determinante cero en la expresión de la pdf habitual.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X