¿Cómo se obtiene la varianza de la Rho de Spearman? El resultado es $\frac{1}{n-1}$ .
He simplificado la fórmula en la última línea que aparece en la imagen, pero ¿cómo se procede a partir de ahí? ( $R(X_i)$ y $R(Y_i)$ denotan el rango de $X$ y $Y$ respectivamente). No sé cómo calcular la varianza. ¿O se trata de un planteamiento erróneo?
Respuesta
¿Demasiados anuncios?Suponiendo que $(X_1,Y_1),(X_2,Y_2),\ldots,(X_n,Y_n)$ son vectores aleatorios continuos i.i.d, el resultado de la pregunta es verdadero sólo bajo la hipótesis $H_0$ (digamos) de independencia de $X$ y $Y$ .
Sea $\text{Rank}(X_i)=R_i$ y $\text{Rank}(Y_i)=S_i$ .
Definir la estadística
$$L_n=\sum_{i=1}^n R_i S_i $$
En $H_0$ los vectores de rango $\boldsymbol R=(R_1,\ldots,R_n)$ y $\boldsymbol S=(S_1,\ldots,S_n)$ son independientes, y ambas están uniformemente distribuidas sobre el conjunto de $n!$ permutaciones de $(1,2,\ldots,n)$ .
Por lo tanto, según $H_0$ , $L_n$ puede escribirse de forma más sencilla
$$L_n=\sum_{i=1}^n i S_i \tag{1}$$
Media de $L_n$ en $H_0$ es, por supuesto
$$E_{H_0}(L_n)=n \left(\frac{n+1}{2}\right)\left(\frac{n+1}{2}\right)$$
Y de $(1)$ se puede deducir que
$$\operatorname{Var}_{H_0}(L_n)=\frac1{n-1}\sum_{i=1}^n \left(i-\frac{n+1}{2}\right)^2 \sum_{i=1}^n \left(i-\frac{n+1}{2}\right)^2 \tag{2}$$
Definir la estadística estandarizada
\begin{align} T_n =\frac{L_n-E_{H_0}(L_n)}{\sqrt{\operatorname{Var}_{H_0}(L_n)}} &=\sqrt{n-1}\cdot\frac{\sum_{i=1}^n \left(R_i-\frac{n+1}2 \right)\left(S_i-\frac{n+1}2 \right)}{\sqrt{\sum_{i=1}^n \left(i-\frac{n+1}2 \right)^2}\sqrt{\sum_{i=1}^n \left(i-\frac{n+1}2\right)^2}} \\&= \sqrt{n-1}\cdot\frac{\sum_{i=1}^n \left(R_i-\frac{n+1}2 \right)\left(S_i-\frac{n+1}2 \right)}{\sqrt{\sum_{i=1}^n \left(R_i-\frac{n+1}2 \right)^2}\sqrt{\sum_{i=1}^n \left(S_i-\frac{n+1}2\right)^2}} \end{align}
Por lo tanto, el coeficiente de correlación de Spearman es
$$r_S=\frac{T_n}{\sqrt{n-1}}$$
Pero $T_n$ tiene media cero y varianza unitaria bajo $H_0$ de donde
$$E_{H_0}(r_S)=0$$
y
$$\operatorname{Var}_{H_0}(r_S)=\frac1{n-1}$$
Para demostrar $(2)$ simplemente utilice
$$\operatorname{Var}_{H_0}(L_n)=\sum_{i=1}^n i^2 \operatorname{Var}_{H_0}(S_i)+\sum_{i\ne j}ij \operatorname{Cov}_{H_0}(S_i,S_j)$$
Por supuesto,
$$\operatorname{Var}_{H_0}(S_i)=\frac1n\sum_{i=1}^n \left(i-\frac{n+1}{2}\right)^2 =\sigma^2 \quad,\,\text{say}$$
Y para $i\ne j$ ,
$$\operatorname{Cov}_{H_0}(S_i,S_j)=\frac1{n(n-1)}\sum_{i\ne j}\left(i-\frac{n+1}{2}\right)\left(j-\frac{n+1}{2}\right)=-\frac{\sigma^2}{n-1}$$
De ello se deduce que
$$\operatorname{Var}_{H_0}(L_n)=\frac{n^2\sigma^2\sigma^2}{n-1}$$