Mi pregunta surgió a raíz de una discusión con @whuber en los comentarios de otro artículo. pregunta .
En concreto, el comentario de @whuber fue el siguiente:
Una de las razones por las que podría sorprenderle es que los supuestos en los que se basan una prueba de correlación y una prueba de pendiente de regresión son diferentes, de modo que incluso cuando entendemos que la correlación y la pendiente miden realmente lo mismo, ¿por qué deberían ser iguales sus valores p? Esto demuestra que estas cuestiones van más allá de si $r$ y $\beta$ deben ser numéricamente iguales.
Esto me hizo pensar en ello y me encontré con una variedad de respuestas interesantes. Por ejemplo, encontré esta pregunta " Supuestos del coeficiente de correlación ", pero no veo cómo esto aclararía el comentario anterior.
Encontré más respuestas interesantes sobre la relación de Pearson $r$ y la pendiente $\beta$ en una regresión lineal simple (véase aquí y aquí por ejemplo) pero ninguno de ellos parece responder a lo que @whuber se refería en su comentario (al menos no aparente para mí).
Pregunta 1: ¿Cuáles son los supuestos subyacentes a una prueba de correlación y a una prueba de pendiente de regresión?
Para mi 2ª pregunta considere las siguientes salidas en R
:
model <- lm(Employed ~ Population, data = longley)
summary(model)
Call:
lm(formula = Employed ~ Population, data = longley)
Residuals:
Min 1Q Median 3Q Max
-1.4362 -0.9740 0.2021 0.5531 1.9048
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3807 4.4224 1.895 0.0789 .
Population 0.4849 0.0376 12.896 3.69e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared: 0.9224, Adjusted R-squared: 0.9168
F-statistic: 166.3 on 1 and 14 DF, p-value: 3.693e-09
Y la salida del cor.test()
función:
with(longley, cor.test(Population, Employed))
Pearson's product-moment correlation
data: Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8869236 0.9864676
sample estimates:
cor
0.9603906
Como se desprende del lm()
y cov.test()
de salida, el coeficiente de correlación de Pearson $r$ y la estimación de la pendiente ( $\beta_1$ ) son muy diferentes, 0,96 frente a 0,485, respectivamente, pero el valor t y los valores p son los mismos.
Luego también he intentado ver si soy capaz de calcular el valor t para $r$ y $\beta_1$ que son iguales a pesar de $r$ y $\beta_1$ ser diferente. Y ahí es donde me quedo atascado, al menos para $r$ :
Calcular la pendiente ( $\beta_1$ ) en una regresión lineal simple utilizando las sumas totales de cuadrados de $x$ y $y$ :
x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))
Calcula la estimación por mínimos cuadrados de la pendiente de la regresión, $\beta_{1}$ (hay una prueba de ello en Libro R de Crawley 1ª edición página 393):
b1 <- ss.xy/ss.x
b1
# [1] 0.4848781
Calcule el error típico de $\beta_1$ :
ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029
Y el valor t y el valor p para $\beta_1$ :
t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09
Lo que no sé en este momento, y esto es Pregunta 2 es decir, cómo calcular el mismo valor t utilizando $r$ en lugar de $\beta_1$ (quizás a pasos de bebé)?
Supongo que como cor.test()
La hipótesis alternativa de la verdadero correlación no es igual a 0 (véase cor.test()
anterior), esperaría algo como el coeficiente de correlación de Pearson $r$ dividido por el "error típico del coeficiente de correlación de Pearson" (similar al b1/se.b1
¡arriba)?! Pero, ¿cuál sería ese error típico y por qué?
Tal vez esto tenga algo que ver con la mencionada supuestos subyacentes a una prueba de correlación y a una prueba de pendiente de regresión ¡?!
EDITAR (27-Jul-2017): Si bien @whuber brindó una explicación muy detallada para Pregunta 1 (y en parte Pregunta 2 (véanse los comentarios bajo su respuesta), investigué un poco más y descubrí que estos dos mensajes ( aquí y aquí ) muestran un error estándar para $r$ que funciona bien para responder Pregunta 2 es decir, reproducir el valor t dado $r$ :
r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956