Loading [MathJax]/jax/element/mml/optable/Latin1Supplement.js

5 votos

Variables aleatorias tienen covarianza cero pero esperado muestra covarianza es cero? (intuición)

Este post se pregunta "¿por qué un conocido y ampliamente utilizado estimador de la covarianza de la muestra tiene valor esperado de cero, en una situación en la que las variables involucradas se caracteriza por la no-cero y la igualdad de pares de covarianza"?

Específicamente, la configuración es la siguiente: tenemos una secuencia de variables aleatorias idénticamente distribuidas {X1,...Xn}, y otra secuencia {Y1,...,Yn} que también han distribuciones idénticas, pero diferentes de las X's. Por otra parte, el siguiente se tiene:

Cov(Xi,Yj)=Cov(Xj,Yi)0,{ij}{i=j}{1,...,n}

Nota que el matemático anterior implica también que

Cov(Xi,Yj)=Cov(Xi,Yi)

Esto es crítico para los resultados a seguir.

(Nota: en un principio me han descrito las asociaciones anteriormente como "equi-correlación cruzada" pero si nos fijamos en los comentarios del hilo, parece que el término describe algo más débil. Así que he borrado todas las referencias a él).

Ya que los elementos de cada secuencia son idénticamente distribuidas, tenemos que E(Xi)=E(Xj)=E(X)E(Yi)=E(Yj)=E(Y). A continuación, en orden a disponer de la igualdad de pares, los coeficientes de correlación, paraij, pero también para i=j, debemos tener

E(XiYj)=E(XjYi)=E(XiYi)=E(XY)0,i,j{1,...,n}

Se nos dice a considerar lo que nosotros conocemos como un imparcial estimador de la Covarianza

ˆCov(X,Y)=1n1ni=1(XiˉX)(YiˉY)

con ˉX=1nni=1Xi, y, asimismo, para la Y's.

La expansión del producto, obtenemos

ˆCov(X,Y)=1n1ni=1XiYinn1(1nni=1Xi)(1nni=1Yi)

=1n1ni=1XiYinn11n2(ni=1nj=1XiYj)

Tomando el valor esperado del estimador

E[ˆCov(X,Y)]=1n1ni=1E(XiYi)nn11n2(ni=1nj=1E(XiYj))

Anteriormente, hemos asumido que E(XiYi)=E(XiYj)=E(XjYi)=E(XY). Más sobre el doble de la suma de la ha n2 elementos, por lo que tenemos

E[ˆCov(X,Y)]=1n1nE(XY)nn11n2n2E(XY)=0

Gran. Tenemos "en serio enredado" (y "lineal") variables aleatorias, y el imparcial de la covarianza de la muestra, de un modo casi "automática" métrica para calcular cuándo llegar a conocer los datos, tiene el valor esperado de cero...

Algunos trenzado, "Teatro del Absurdo" la intuición puede ser obtenida a partir de la frase "si no podemos distinguir entre el par {Xi,Yi} y el par {Xi,Yj}, en cuanto a la covarianza, que "la conclusión" de que dicha covarianza es cero", pero por el momento esto parece más absurdo que intuitivo.

Entiendo que la situación descrita por las suposiciones (1) (2) puede ser de bastante limitado aplicado interés, incluso para los moderadamente grande n, porque si tratamos de plasmarlo en el mundo real de las relaciones, las imágenes también muchos y, al mismo tiempo, muy similar a las asociaciones, a ser probable/creíble.

Pero creo que éste no es sólo un "teórico de la curiosidad", pero nos puede estar diciendo algo útil acerca de las limitaciones de nuestras herramientas de... de algo que puede ser ya conocida -pero ya que no es muy conocido para mí, me decidí a publicar como una pregunta.

Todas las ideas o explicaciones para entender mejor la situación anterior?

"Laico" enfoques avanzados de matemática son igualmente bienvenidos.

5voto

jldugger Puntos 7490

Las condiciones en las covarianzas será la fuerza de la Xi está fuertemente correlacionada uno al otro, y el Yj a estar fuertemente correlacionadas entre sí, cuando la mutua correlación entre el Xi Yj son cero. Como un modelo para desarrollar la intuición, entonces, vamos a dejar que ambos (Xi) (Yj) tiene una exponencial de la función de autocorrelación

ρ(Xi,Xj)=ρ(Yi,Yj)=ρ|ij|

for some ρ near 1. Also take every Xi and Yj to have zero expectation and unit variance. Let Cov(Xi,Yj)=α. (For any given n and α, the possible values of ρ will be limited to an interval containing 1 due to the necessity of creating a positive-definite correlation matrix.)

In this model the covariance (equally well, the correlation) matrix in terms of (X1,,Xn,Y1,,Yn) will look like

(1ρρn1αααρ1ρn2αααρn1ρ1αααααα1ρρn1αααρ1ρn2αααρn1ρ1)

A simulation (using 2n-variate Normal random variables) explains much. This figure is a scatterplot of all (Xi,Yi) from 1000 independent draws with ρ=0.99, α=0.6, and n=8.

Figure

The gray dots show all 8000 pairs (Xi,Yi). The first 70 of these 1000 realizations have been separately colored and surrounded by $80\$ confidence ellipses (to form visual outlines of each group).

The orientations of these ellipses have a uniform distribution: on average, there is no correlation among individual collections .

Figure 2: histogram of orientations.

However, due to the induced positive correlation among the Xi (equally well, among the Yj), all the Xi for any given realization tend to be tightly clustered. From one realization to another they tend to line up along a downward slanting line, with some scatter around it, thereby realizing a cloud of correlation α=0.6.

We might summarize the situation by saying by recentering the data, the sample correlation coefficient does not account for the variation among the means of the Xi and means of the Yj. Since, in this model, the correlation between those two means is exactly the same as the correlation between any Xi and any Yj (namely α), a la espera de correlación de redes a cero.


Aquí está trabajando R código para jugar con la simulación.

library(MASS)
#set.seed(17)
n.sim <- 1000
alpha <- -0.6
rho <- 0.99
n <- 8
mu <- rep(0, 2*n)
sigma.11 <- outer(1:n, 1:n, function(i,j) rho^(abs(i-j)))
sigma.12 <- matrix(alpha, n, n)
sigma <- rbind(cbind(sigma.11, sigma.12), cbind(sigma.12, sigma.11))
min(eigen(sigma)$values) # Must be positive for sigma to be valid.
    x <- mvrnorm(n.sim, mu, sigma)
    #pairs(x[, 1:n], pch=".")
    library(car)
    ell <- function(x, color, plot=TRUE) {
      if (plot) {
        points(x[1:n], x[1:n+n], pch=1, col=color)
        dataEllipse(x[1:n], x[1:n+n], levels=0.8, add=TRUE, col=color,
                    center.cex=1, fill=TRUE, fill.alpha=0.1, robust=TRUE)
      }
      v <- eigen(cov(cbind(x[1:n], x[1:n+n])))$vectors[, 1]
  atan2(v[2], v[1]) %% pi
}
n.plot <- min(70, n.sim)
colors=rainbow(n.plot)
plot(as.vector(x[, 1:n]), as.vector(x[, 1:n + n]), type="p", pch=".", col=gray(.4),
     xlab="X",ylab="Y")
invisible(sapply(1:n.plot, function(i) ell(x[i,], colors[i])))
ev <- sapply(1:n.sim, function(i) ell(x[i,], color=colors[i], plot=FALSE))
hist(ev, breaks=seq(0, pi, by=pi/10))

0voto

Shaun Dewberry Puntos 191

Si Xi iid y Yi iid, (Xi,Yi) son iid. Por lo tanto, Cov(Xi,Yj)=0 cuando ij. Puesto que se requiere Cov(Xi,Yi)=Cov(Xi,Yi), terminan concluyendo que Cov(Xi,Yi)=0 y así Cov(X,Y)=0.

0voto

Josh Peterson Puntos 108

Yo entiendo de los comentarios que esto no es lo que usted está buscando, te dejo esta respuesta de todos modos en caso de que otro lector encuentra puede encontrar útil.

Se nos da un valor y una derivación de un sesgo en la muestra de covarianza. Yo entiendo de los comentarios que el hecho de que el sesgo que hace que la expectativa de cero en este caso es lo que interesa a la OP. Sostengo aquí que no es de ningún interés particular y tratar de responder a los diferentes puntos en la OP del texto.

Tenemos "en serio enredado" (y "lineal") variables aleatorias, y el imparcial de la covarianza de la muestra, de un modo casi "automática" métrica para calcular cuándo llegar a conocer los datos, tiene el valor esperado de cero...

La muestra la covarianza es una medida que no de algún general de la dependencia lineal de la estructura en un conjunto de datos generados por 2n variables aleatorias, y por lo tanto no es de extrañar que insistir en el cálculo de un ajuste de los rendimientos de un valor esperado de cero. Para que esto sea sorprendente, debe haber algún otro valor o intervalo de valores que tiene más sentido y no puedo ver el valor.

Pero creo que éste no es sólo un "teórico de la curiosidad", pero nos puede estar diciendo algo útil acerca de las limitaciones de nuestras herramientas de... de algo que puede ser ya conocida -pero ya que no es muy conocido para mí, me decidí a publicar como una pregunta

Yo estaría de acuerdo en que un prejuicio es una limitación, y un sesgo es de hecho lo que ha derivado, nada más. Yo, sin embargo, no vemos ningún argumento de por qué un sesgo de hacer la expectativa de cero es más una limitación que la de cualquier otro sesgo. Por ejemplo, yo diría que es a menudo peor para la estimación de la señal equivocada que para la estimación de cero.

¿Por qué un conocido y ampliamente utilizado estimador de la covarianza de la muestra tiene valor esperado de cero, en una situación en la que las variables involucradas se caracteriza por la no-cero y la igualdad de pares de covarianza?

Porque te han obligado a que el estimador en un entorno, que no está diseñado para manejar. En particular, el estimador tiene, tal vez un poco firmemente expuesto, nada que ver con los pares de la covarianza entre 2n variables. En esencia, lo que han hecho aquí es tomar una medida (no en el sentido matemático) diseñado para una situación, aplicado a otro y en una ecuación resultante como a+b=c forzados b=a.

Este ejemplo muestra bien cómo la dependencia puede causar sesgo. Prescindiendo de prejuicios, no nos dice nada acerca de la utilidad de covarianza de la muestra y su aplicación. Dicho esto, todavía puede ser interesante examinar lo que una determinada ecuación nos dice acerca de la naturaleza de los datos, como whuber muy bonita respuesta y simulación muestra. De nuevo, el ejemplo concreto en la pregunta no tiene influencia sobre la utilidad o propiedades de la covarianza de la muestra si el sesgo es considerada sin interés.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X