5 votos

Variables aleatorias tienen covarianza cero pero esperado muestra covarianza es cero? (intuición)

Este post se pregunta "¿por qué un conocido y ampliamente utilizado estimador de la covarianza de la muestra tiene valor esperado de cero, en una situación en la que las variables involucradas se caracteriza por la no-cero y la igualdad de pares de covarianza"?

Específicamente, la configuración es la siguiente: tenemos una secuencia de variables aleatorias idénticamente distribuidas $\{X_1,...X_n\}$, y otra secuencia $\{Y_1,...,Y_n\}$ que también han distribuciones idénticas, pero diferentes de las $X$'s. Por otra parte, el siguiente se tiene:

$${\rm Cov}(X_i,Y_j) = {\rm Cov}(X_j,Y_i) \neq 0, \;\forall \{i \neq j\}\cup \{i=j\} \in \{1,...,n\} \tag{1}$$

Nota que el matemático anterior implica también que

$$ {\rm Cov}(X_i,Y_j) = {\rm Cov}(X_i,Y_i) \tag{2}$$

Esto es crítico para los resultados a seguir.

(Nota: en un principio me han descrito las asociaciones anteriormente como "equi-correlación cruzada" pero si nos fijamos en los comentarios del hilo, parece que el término describe algo más débil. Así que he borrado todas las referencias a él).

Ya que los elementos de cada secuencia son idénticamente distribuidas, tenemos que $E(X_i) = E(X_j) = E(X)$$E(Y_i) = E(Y_j) = E(Y)$. A continuación, en orden a disponer de la igualdad de pares, los coeficientes de correlación, para$i\neq j$, pero también para $i=j$, debemos tener

$$E(X_iY_j) = E(X_jY_i) = E(X_iY_i) = E(XY) \neq 0, \;\forall i,j \in \{1,...,n\}$$

Se nos dice a considerar lo que nosotros conocemos como un imparcial estimador de la Covarianza

$${\rm \hat Cov}(X, Y) = \frac 1{n-1}\sum_{i=1}^n(X_i-\bar X)(Y_i-\bar Y)$$

con $\bar X = \frac 1{n}\sum_{i=1}^nX_i$, y, asimismo, para la $Y$'s.

La expansión del producto, obtenemos

$${\rm \hat Cov}(X, Y) = \frac 1{n-1}\sum_{i=1}^nX_iY_i - \frac n{n-1}\left(\frac 1n \sum_{i=1}^nX_i\right) \left(\frac 1n \sum_{i=1}^nY_i\right)$$

$$= \frac 1{n-1}\sum_{i=1}^nX_iY_i - \frac n{n-1}\frac 1{n^2}\left(\sum_{i=1}^n\sum_{j=1}^nX_iY_j\right)$$

Tomando el valor esperado del estimador

$$E\left[{\rm \hat Cov}(X, Y)\right] = \frac 1{n-1}\sum_{i=1}^nE(X_iY_i) - \frac n{n-1}\frac 1{n^2}\left(\sum_{i=1}^n\sum_{j=1}^nE(X_iY_j)\right)$$

Anteriormente, hemos asumido que $E(X_iY_i) = E(X_iY_j) = E(X_jY_i) = E(XY)$. Más sobre el doble de la suma de la ha $n^2$ elementos, por lo que tenemos

$$E\left[{\rm \hat Cov}(X, Y)\right] = \frac 1{n-1}nE(XY) - \frac n{n-1}\frac 1{n^2}n^2E(XY) =0$$

Gran. Tenemos "en serio enredado" (y "lineal") variables aleatorias, y el imparcial de la covarianza de la muestra, de un modo casi "automática" métrica para calcular cuándo llegar a conocer los datos, tiene el valor esperado de cero...

Algunos trenzado, "Teatro del Absurdo" la intuición puede ser obtenida a partir de la frase "si no podemos distinguir entre el par $\{X_i, Y_i\}$ y el par $\{X_i, Y_j\}$, en cuanto a la covarianza, que "la conclusión" de que dicha covarianza es cero", pero por el momento esto parece más absurdo que intuitivo.

Entiendo que la situación descrita por las suposiciones $(1)$ $(2)$ puede ser de bastante limitado aplicado interés, incluso para los moderadamente grande $n$, porque si tratamos de plasmarlo en el mundo real de las relaciones, las imágenes también muchos y, al mismo tiempo, muy similar a las asociaciones, a ser probable/creíble.

Pero creo que éste no es sólo un "teórico de la curiosidad", pero nos puede estar diciendo algo útil acerca de las limitaciones de nuestras herramientas de... de algo que puede ser ya conocida -pero ya que no es muy conocido para mí, me decidí a publicar como una pregunta.

Todas las ideas o explicaciones para entender mejor la situación anterior?

"Laico" enfoques avanzados de matemática son igualmente bienvenidos.

5voto

jldugger Puntos 7490

Las condiciones en las covarianzas será la fuerza de la $X_i$ está fuertemente correlacionada uno al otro, y el $Y_j$ a estar fuertemente correlacionadas entre sí, cuando la mutua correlación entre el $X_i$ $Y_j$ son cero. Como un modelo para desarrollar la intuición, entonces, vamos a dejar que ambos $(X_i)$ $(Y_j)$ tiene una exponencial de la función de autocorrelación

$$\rho(X_i, X_j) = \rho(Y_i, Y_j) = \rho^{|i-j|}$$

for some $\rho$ near $1$. Also take every $X_i$ and $Y_j$ to have zero expectation and unit variance. Let $\text{Cov}(X_i,Y_j)=\alpha$. (For any given $n$ and $\alpha$, the possible values of $\rho$ will be limited to an interval containing $1$ due to the necessity of creating a positive-definite correlation matrix.)

In this model the covariance (equally well, the correlation) matrix in terms of $(X_1, \ldots, X_n, Y_1, \ldots, Y_n)$ will look like

$$\begin{pmatrix} 1 & \rho & \cdots & \rho^{n-1} & \alpha & \alpha & \cdots & \alpha \\ \rho & 1 & \cdots & \rho^{n-2} & \alpha & \alpha & \cdots & \alpha \\ \vdots & \vdots & \cdots & \vdots & \vdots & \vdots & \cdots & \vdots \\ \rho^{n-1} & \cdots & \rho & 1 & \alpha & \alpha & \cdots & \alpha \\ \alpha & \alpha & \cdots & \alpha & 1 & \rho & \cdots & \rho^{n-1} \\ \alpha & \alpha & \cdots & \alpha &\rho & 1 & \cdots & \rho^{n-2} \\ \vdots & \vdots & \cdots & \vdots & \vdots & \vdots & \cdots & \vdots \\ \alpha & \alpha & \cdots & \alpha & \rho^{n-1} & \cdots & \rho & 1 \end{pmatrix}$$

A simulation (using $2n$-variate Normal random variables) explains much. This figure is a scatterplot of all $(X_i,Y_i)$ from $1000$ independent draws with $\rho=0.99$, $\alpha=-0.6$, and $n=8$.

Figure

The gray dots show all $8000$ pairs $(X_i,Y_i)$. The first $70$ of these $1000$ realizations have been separately colored and surrounded by $80\$ confidence ellipses (to form visual outlines of each group).

The orientations of these ellipses have a uniform distribution: on average, there is no correlation among individual collections $%((X_1,Y_1), \ldots, (X_n,Y_n))$.

Figure 2: histogram of orientations.

However, due to the induced positive correlation among the $X_i$ (equally well, among the $Y_j$), all the $X_i$ for any given realization tend to be tightly clustered. From one realization to another they tend to line up along a downward slanting line, with some scatter around it, thereby realizing a cloud of correlation $\alpha=-0.6$.

We might summarize the situation by saying by recentering the data, the sample correlation coefficient does not account for the variation among the means of the $X_i$ and means of the $Y_j$. Since, in this model, the correlation between those two means is exactly the same as the correlation between any $X_i$ and any $Y_j$ (namely $\alpha$), a la espera de correlación de redes a cero.


Aquí está trabajando R código para jugar con la simulación.

library(MASS)
#set.seed(17)
n.sim <- 1000
alpha <- -0.6
rho <- 0.99
n <- 8
mu <- rep(0, 2*n)
sigma.11 <- outer(1:n, 1:n, function(i,j) rho^(abs(i-j)))
sigma.12 <- matrix(alpha, n, n)
sigma <- rbind(cbind(sigma.11, sigma.12), cbind(sigma.12, sigma.11))
min(eigen(sigma)$values) # Must be positive for sigma to be valid.
    x <- mvrnorm(n.sim, mu, sigma)
    #pairs(x[, 1:n], pch=".")
    library(car)
    ell <- function(x, color, plot=TRUE) {
      if (plot) {
        points(x[1:n], x[1:n+n], pch=1, col=color)
        dataEllipse(x[1:n], x[1:n+n], levels=0.8, add=TRUE, col=color,
                    center.cex=1, fill=TRUE, fill.alpha=0.1, robust=TRUE)
      }
      v <- eigen(cov(cbind(x[1:n], x[1:n+n])))$vectors[, 1]
  atan2(v[2], v[1]) %% pi
}
n.plot <- min(70, n.sim)
colors=rainbow(n.plot)
plot(as.vector(x[, 1:n]), as.vector(x[, 1:n + n]), type="p", pch=".", col=gray(.4),
     xlab="X",ylab="Y")
invisible(sapply(1:n.plot, function(i) ell(x[i,], colors[i])))
ev <- sapply(1:n.sim, function(i) ell(x[i,], color=colors[i], plot=FALSE))
hist(ev, breaks=seq(0, pi, by=pi/10))

0voto

Shaun Dewberry Puntos 191

Si ${X_i}$ iid y ${Y_i}$ iid, ${(X_i,Y_i)}$ son iid. Por lo tanto, $\operatorname{Cov}(X_i,Y_j) = 0$ cuando $i \ne j$. Puesto que se requiere $\operatorname{Cov}(X_i,Y_i) = \operatorname{Cov}(X_i,Y_i)$, terminan concluyendo que $\operatorname{Cov}(X_i, Y_i) = 0$ y así $\operatorname{Cov}(X,Y) = 0$.

0voto

Josh Peterson Puntos 108

Yo entiendo de los comentarios que esto no es lo que usted está buscando, te dejo esta respuesta de todos modos en caso de que otro lector encuentra puede encontrar útil.

Se nos da un valor y una derivación de un sesgo en la muestra de covarianza. Yo entiendo de los comentarios que el hecho de que el sesgo que hace que la expectativa de cero en este caso es lo que interesa a la OP. Sostengo aquí que no es de ningún interés particular y tratar de responder a los diferentes puntos en la OP del texto.

Tenemos "en serio enredado" (y "lineal") variables aleatorias, y el imparcial de la covarianza de la muestra, de un modo casi "automática" métrica para calcular cuándo llegar a conocer los datos, tiene el valor esperado de cero...

La muestra la covarianza es una medida que no de algún general de la dependencia lineal de la estructura en un conjunto de datos generados por 2n variables aleatorias, y por lo tanto no es de extrañar que insistir en el cálculo de un ajuste de los rendimientos de un valor esperado de cero. Para que esto sea sorprendente, debe haber algún otro valor o intervalo de valores que tiene más sentido y no puedo ver el valor.

Pero creo que éste no es sólo un "teórico de la curiosidad", pero nos puede estar diciendo algo útil acerca de las limitaciones de nuestras herramientas de... de algo que puede ser ya conocida -pero ya que no es muy conocido para mí, me decidí a publicar como una pregunta

Yo estaría de acuerdo en que un prejuicio es una limitación, y un sesgo es de hecho lo que ha derivado, nada más. Yo, sin embargo, no vemos ningún argumento de por qué un sesgo de hacer la expectativa de cero es más una limitación que la de cualquier otro sesgo. Por ejemplo, yo diría que es a menudo peor para la estimación de la señal equivocada que para la estimación de cero.

¿Por qué un conocido y ampliamente utilizado estimador de la covarianza de la muestra tiene valor esperado de cero, en una situación en la que las variables involucradas se caracteriza por la no-cero y la igualdad de pares de covarianza?

Porque te han obligado a que el estimador en un entorno, que no está diseñado para manejar. En particular, el estimador tiene, tal vez un poco firmemente expuesto, nada que ver con los pares de la covarianza entre 2n variables. En esencia, lo que han hecho aquí es tomar una medida (no en el sentido matemático) diseñado para una situación, aplicado a otro y en una ecuación resultante como $a+b=c$ forzados $b=-a$.

Este ejemplo muestra bien cómo la dependencia puede causar sesgo. Prescindiendo de prejuicios, no nos dice nada acerca de la utilidad de covarianza de la muestra y su aplicación. Dicho esto, todavía puede ser interesante examinar lo que una determinada ecuación nos dice acerca de la naturaleza de los datos, como whuber muy bonita respuesta y simulación muestra. De nuevo, el ejemplo concreto en la pregunta no tiene influencia sobre la utilidad o propiedades de la covarianza de la muestra si el sesgo es considerada sin interés.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X