La Parte Inferior De La Línea De
La muestra coeficiente de correlación necesaria para rechazar la hipótesis de que el verdadero (Pearson) el coeficiente de correlación es igual a cero se convierte en pequeño muy rápido como el tamaño de la muestra aumenta. Así que, en general, no, usted no puede tener al mismo tiempo un grande (en magnitud) el coeficiente de correlación y simultáneamente un gran $p$-valor.
La Línea Superior (Detalles)
La prueba utilizada para el coeficiente de correlación de Pearson en el $R$ función cor.test
es un muy versión ligeramente modificada del método de discutir a continuación.
Supongamos $(X_1,Y_1), (X_2,Y_2),\ldots,(X_n,Y_n)$ son iid bivariante aleatoria normal con los vectores de correlación $\rho$. Queremos probar la hipótesis nula de que $\rho = 0$ frente al $\rho \neq 0$. Deje $r$ ser la muestra coeficiente de correlación. Utilizando el estándar de regresión lineal de la teoría, no es difícil mostrar que el estadístico de prueba,
$$
T = \frac{r \sqrt{n-2}}{\sqrt{(1-r^2)}}
$$
tiene un $t_{n-2}$ distribución bajo la hipótesis nula. Para un gran$n$, $t_{n-2}$ métodos de distribución de la normal estándar. Por lo tanto $T^2$ es de aproximadamente de chi-cuadrado distribuidos con un grado de libertad. (Bajo los supuestos que hemos hecho, $T^2 \sim F_{1,n-2}$ en la actualidad, pero el $\chi^2_1$ aproximación hace más clara de lo que está pasando, creo.)
Así,
$$
\mathbb P\left(\frac{r^2}{1-r^2} (n-2) \geq q_{1-\alpha} \right) \approx \alpha \>,
$$
donde $q_{1-\alpha}$ $(1-\alpha)$ cuantil de una distribución chi-squared con un grado de libertad.
Ahora, tenga en cuenta que $r^2/(1-r^2)$ aumento de la $r^2$ aumenta. Reorganización de la cantidad en la probabilidad de declaración, tenemos que para todo
$$
|r| \geq \frac{1}{\sqrt{1+(n-2)/q_{1-\alpha}}}
$$
vamos a llegar a un rechazo de la hipótesis nula al nivel de $\alpha$. Claramente la mano derecha disminuye con la $n$.
Una parcela
Aquí está una parcela de la región de rechazo de $|r|$ como una función del tamaño de la muestra. Así, por ejemplo, cuando el tamaño de la muestra excede de 100, el (absoluta) de correlación sólo debe ser de 0,2 a rechazar el valor null en la $\alpha = 0.05$ nivel.
Una simulación
Podemos hacer una simulación simple para generar un par de cero significa que los vectores con un exacto del coeficiente de correlación. A continuación está el código. A partir de esto podemos ver en la salida de cor.test
.
k <- 100
n <- 4*k
# Correlation that gives an approximate p-value of 0.05
# Change 0.05 to some other desired p-value to get a different curve
pval <- 0.05
qval <- qchisq(pval,1,lower.tail=F)
rho <- 1/sqrt(1+(n-2)/qval)
# Zero-mean orthogonal basis vectors
b1 <- rep(c(1,-1),n/2)
b2 <- rep(c(1,1,-1,-1),n/4)
# Construct x and y vectors with mean zero and an empirical
# correlation of *exactly* rho
x <- b1
y <- rho * b1 + sqrt(1-rho^2) * b2
# Do test
ctst <- cor.test(x,y)
Como se pide en los comentarios, aquí está el código para reproducir la trama, que se puede ejecutar inmediatamente después del código anterior (y utiliza algunas de las variables definidas).
png("cortest.png", height=600, width=600)
m <- 3:1000
yy <- 1/sqrt(1+(m-2)/qval)
plot(m, yy, type="l", lwd=3, ylim=c(0,1),
xlab="sample size", ylab="correlation")
polygon( c(m[1],m,rev(m)[1]), c(1,yy,1), col="lightblue2", border=NA)
lines(m,yy,lwd=2)
text(500, 0.5, "p < 0.05", cex=1.5 )
dev.off()