21 votos

Ejemplo de coeficiente de correlación fuerte con un alto valor de p

Me preguntaba, ¿es posible tener una muy fuerte coeficiente de correlación (decir .9 o superior), con un alto valor de p (es decir .25 o superior)?

He aquí un ejemplo de un bajo coeficiente de correlación, con un alto valor de p:

set.seed(10)
y <- rnorm(100)
x <- rnorm(100)+.1*y
cor.test(x,y)

co = 0.03908927, p=0.6994

Alto coeficiente de correlación, el bajo valor de p:

y <- rnorm(100)
x <- rnorm(100)+2*y
cor.test(x,y)

co = 0.8807809, p=2.2 e-16

Bajo coeficiente de correlación, el bajo valor de p:

y <- rnorm(100000)
x <- rnorm(100000)+.1*y
cor.test(x,y)

co = 0.1035018, p=2.2 e-16

Alto coeficiente de correlación, de alto valor de p: ???

36voto

giulio Puntos 166

La Parte Inferior De La Línea De

La muestra coeficiente de correlación necesaria para rechazar la hipótesis de que el verdadero (Pearson) el coeficiente de correlación es igual a cero se convierte en pequeño muy rápido como el tamaño de la muestra aumenta. Así que, en general, no, usted no puede tener al mismo tiempo un grande (en magnitud) el coeficiente de correlación y simultáneamente un gran $p$-valor.

La Línea Superior (Detalles)

La prueba utilizada para el coeficiente de correlación de Pearson en el $R$ función cor.test es un muy versión ligeramente modificada del método de discutir a continuación.

Supongamos $(X_1,Y_1), (X_2,Y_2),\ldots,(X_n,Y_n)$ son iid bivariante aleatoria normal con los vectores de correlación $\rho$. Queremos probar la hipótesis nula de que $\rho = 0$ frente al $\rho \neq 0$. Deje $r$ ser la muestra coeficiente de correlación. Utilizando el estándar de regresión lineal de la teoría, no es difícil mostrar que el estadístico de prueba, $$ T = \frac{r \sqrt{n-2}}{\sqrt{(1-r^2)}} $$ tiene un $t_{n-2}$ distribución bajo la hipótesis nula. Para un gran$n$, $t_{n-2}$ métodos de distribución de la normal estándar. Por lo tanto $T^2$ es de aproximadamente de chi-cuadrado distribuidos con un grado de libertad. (Bajo los supuestos que hemos hecho, $T^2 \sim F_{1,n-2}$ en la actualidad, pero el $\chi^2_1$ aproximación hace más clara de lo que está pasando, creo.)

Así, $$ \mathbb P\left(\frac{r^2}{1-r^2} (n-2) \geq q_{1-\alpha} \right) \approx \alpha \>, $$ donde $q_{1-\alpha}$ $(1-\alpha)$ cuantil de una distribución chi-squared con un grado de libertad.

Ahora, tenga en cuenta que $r^2/(1-r^2)$ aumento de la $r^2$ aumenta. Reorganización de la cantidad en la probabilidad de declaración, tenemos que para todo $$ |r| \geq \frac{1}{\sqrt{1+(n-2)/q_{1-\alpha}}} $$ vamos a llegar a un rechazo de la hipótesis nula al nivel de $\alpha$. Claramente la mano derecha disminuye con la $n$.

Una parcela

Aquí está una parcela de la región de rechazo de $|r|$ como una función del tamaño de la muestra. Así, por ejemplo, cuando el tamaño de la muestra excede de 100, el (absoluta) de correlación sólo debe ser de 0,2 a rechazar el valor null en la $\alpha = 0.05$ nivel.

Una simulación

Podemos hacer una simulación simple para generar un par de cero significa que los vectores con un exacto del coeficiente de correlación. A continuación está el código. A partir de esto podemos ver en la salida de cor.test.

k <- 100
n <- 4*k

# Correlation that gives an approximate p-value of 0.05
# Change 0.05 to some other desired p-value to get a different curve
pval <- 0.05
qval <- qchisq(pval,1,lower.tail=F)
rho  <- 1/sqrt(1+(n-2)/qval)

# Zero-mean orthogonal basis vectors
b1 <- rep(c(1,-1),n/2)
b2 <- rep(c(1,1,-1,-1),n/4)

# Construct x and y vectors with mean zero and an empirical
# correlation of *exactly* rho
x <- b1
y <- rho * b1 + sqrt(1-rho^2) * b2

# Do test
ctst <- cor.test(x,y)

Como se pide en los comentarios, aquí está el código para reproducir la trama, que se puede ejecutar inmediatamente después del código anterior (y utiliza algunas de las variables definidas).

png("cortest.png", height=600, width=600)
m  <- 3:1000
yy <- 1/sqrt(1+(m-2)/qval)
plot(m, yy, type="l", lwd=3, ylim=c(0,1),
     xlab="sample size", ylab="correlation")
polygon( c(m[1],m,rev(m)[1]), c(1,yy,1), col="lightblue2", border=NA)
lines(m,yy,lwd=2)
text(500, 0.5, "p < 0.05", cex=1.5 )
dev.off()

17voto

Raptrex Puntos 115
cor.test(c(1,2,3),c(1,2,2))

Cor = 0.866, p = 0,333

11voto

Berek Bryan Puntos 349

Una alta estimación del coeficiente de correlación con un valor p alta sólo podría ocurrir con un tamaño de muestra muy pequeño. Estaba a punto de dar una ilustración, pero Aaron solo ha hecho eso!

9voto

Akira Puntos 1061

Yo creo que por la de Fisher R-Z transformar, la hiperbólica arctan de la muestra de correlación, bajo el nulo, es aproximadamente normal, con media cero y el error estándar $1 / \sqrt{n-3}$. Así que para conseguir, por ejemplo, una muestra de correlación $\hat{\rho} > 0$ con un p-valor, $p$, sería necesario $$p = 2 - 2 \Phi\left(\operatorname{atanh}(\hat{\rho})\sqrt{n-3}\right),$$ donde $\Phi$ es la CDF de la normal estándar, y se va a realizar una prueba de dos caras para el null $H_0: \rho = 0$.

Usted puede convertir esto en una función que da la necesaria $n$ fijos $\hat{\rho}$$p$. En R:

 #get n for sample correlation and p-value, 2-sided test of 0 correlation
 n.size <- function(rho.hat,p.val) {
   n <- 3 + ((qnorm(1 - 0.5 * p.val)) / atanh(rho.hat))^2
 }

Ejecutando este para $\hat{\rho} = 0.5$ $p = 0.2$ le da:

print(n.size(0.5,0.2))

[1] 8.443062

Por lo que su tamaño de la muestra debe ser de alrededor de 8. Jugando con esta función debería dar alguna idea de la relación entre el$n, p$$\hat{\rho}$.

2voto

Parvenu74 Puntos 1603

Sí. Un p-valor depende del tamaño de la muestra, por lo que una pequeña muestra puede dar esto.

Dicen que el verdadero efecto que el tamaño era muy pequeño, y se dibuja una pequeña muestra. Por suerte, usted consigue un par de puntos de datos con correlación muy alta. El p-valor será alto, como debe ser. La correlación es alta, pero no es muy confiable el resultado.

La muestra de correlación de R cor() te dirá la mejor estimación de la correlación (dado que la muestra). El p-valor NO miden la fuerza de la correlación. Mide qué tan probable es que podrían haber surgido en el caso de que efectivamente hubo ningún efecto, teniendo en cuenta el tamaño de la muestra.

Otra forma de ver esto: Si tienen el mismo tamaño del efecto, pero más muestras, el valor de p siempre va a cero.

(Si desea más estrechamente integrar las nociones de tamaño del efecto estimado y confianza con respecto a la estimación, puede ser mejor utilizar los intervalos de confianza; o, el uso de técnicas Bayesianas.)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X