25 votos

Diferencia entre los supuestos subyacentes a una correlación y a una regresión pruebas de pendiente de significación

Mi pregunta surgió a raíz de una discusión con @whuber en los comentarios de otro artículo. pregunta .

En concreto, el comentario de @whuber fue el siguiente:

Una de las razones por las que podría sorprenderle es que los supuestos en los que se basan una prueba de correlación y una prueba de pendiente de regresión son diferentes, de modo que incluso cuando entendemos que la correlación y la pendiente miden realmente lo mismo, ¿por qué deberían ser iguales sus valores p? Esto demuestra que estas cuestiones van más allá de si $r$ y $\beta$ deben ser numéricamente iguales.

Esto me hizo pensar en ello y me encontré con una variedad de respuestas interesantes. Por ejemplo, encontré esta pregunta " Supuestos del coeficiente de correlación ", pero no veo cómo esto aclararía el comentario anterior.

Encontré más respuestas interesantes sobre la relación de Pearson $r$ y la pendiente $\beta$ en una regresión lineal simple (véase aquí y aquí por ejemplo) pero ninguno de ellos parece responder a lo que @whuber se refería en su comentario (al menos no aparente para mí).

Pregunta 1: ¿Cuáles son los supuestos subyacentes a una prueba de correlación y a una prueba de pendiente de regresión?

Para mi 2ª pregunta considere las siguientes salidas en R :

model <- lm(Employed ~ Population, data = longley)
summary(model)

Call:
lm(formula = Employed ~ Population, data = longley)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Y la salida del cor.test() función:

with(longley, cor.test(Population, Employed))

    Pearson's product-moment correlation

data:  Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

Como se desprende del lm() y cov.test() de salida, el coeficiente de correlación de Pearson $r$ y la estimación de la pendiente ( $\beta_1$ ) son muy diferentes, 0,96 frente a 0,485, respectivamente, pero el valor t y los valores p son los mismos.

Luego también he intentado ver si soy capaz de calcular el valor t para $r$ y $\beta_1$ que son iguales a pesar de $r$ y $\beta_1$ ser diferente. Y ahí es donde me quedo atascado, al menos para $r$ :

Calcular la pendiente ( $\beta_1$ ) en una regresión lineal simple utilizando las sumas totales de cuadrados de $x$ y $y$ :

x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))

Calcula la estimación por mínimos cuadrados de la pendiente de la regresión, $\beta_{1}$ (hay una prueba de ello en Libro R de Crawley 1ª edición página 393):

b1 <- ss.xy/ss.x                        
b1
# [1] 0.4848781

Calcule el error típico de $\beta_1$ :

ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029

Y el valor t y el valor p para $\beta_1$ :

t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09

Lo que no sé en este momento, y esto es Pregunta 2 es decir, cómo calcular el mismo valor t utilizando $r$ en lugar de $\beta_1$ (quizás a pasos de bebé)?

Supongo que como cor.test() La hipótesis alternativa de la verdadero correlación no es igual a 0 (véase cor.test() anterior), esperaría algo como el coeficiente de correlación de Pearson $r$ dividido por el "error típico del coeficiente de correlación de Pearson" (similar al b1/se.b1 ¡arriba)?! Pero, ¿cuál sería ese error típico y por qué?

Tal vez esto tenga algo que ver con la mencionada supuestos subyacentes a una prueba de correlación y a una prueba de pendiente de regresión ¡?!

EDITAR (27-Jul-2017): Si bien @whuber brindó una explicación muy detallada para Pregunta 1 (y en parte Pregunta 2 (véanse los comentarios bajo su respuesta), investigué un poco más y descubrí que estos dos mensajes ( aquí y aquí ) muestran un error estándar para $r$ que funciona bien para responder Pregunta 2 es decir, reproducir el valor t dado $r$ :

r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956

7voto

jldugger Puntos 7490

Introducción

Esta respuesta aborda la motivación subyacente a este conjunto de preguntas:

¿Cuáles son los supuestos subyacentes a una prueba de correlación y a una prueba de pendiente de regresión?

Sin embargo, a la luz de los antecedentes expuestos en la pregunta, me gustaría sugerir que ampliemos un poco esta cuestión: exploremos las diferentes fines y conceptos de correlación y regresión.

Correlación suele invocarse en situaciones en las que

  • Los datos son bivariante: a cada "sujeto" u "observación" se asocian exactamente dos valores de interés distintos.

  • Los datos son observacional: ninguno de los valores fue fijado por el experimentador. Ambos fueron observados o medidos.

  • El interés reside en identificar, cuantificar y probar algún tipo de relación entre las variables.

Regresión se utiliza cuando

  • Los datos son bivariantes o multivariantes: puede haber más de dos valores distintos de interés.

  • El interés se centra en comprender qué puede decirse de un subconjunto de variables -las variables "dependientes" o "respuestas"- a partir de lo que pueda saberse del otro subconjunto -las variables "independientes" o "regresoras"-.

  • Los valores específicos de los regresores pueden haber sido fijados por el experimentador.

Estos objetivos y situaciones diferentes conducen a planteamientos distintos. Dado que este hilo trata de sus similitudes, vamos a centrarnos en el caso en el que son más parecidos: los datos bivariantes. En ambos casos, los datos suelen modelizarse como realizaciones de una variable aleatoria $(X,Y)$ . En general, ambas formas de análisis buscan caracterizaciones relativamente sencillas de esta variable.

Correlación

Creo que el "análisis de correlación" nunca se ha definido de forma general. ¿Debería limitarse al cálculo de coeficientes de correlación, o podría considerarse más ampliamente que comprende el ACP, el análisis de conglomerados y otras formas de análisis que relacionan dos variables? Tanto si su punto de vista está estrechamente circunscrito como si es amplio, quizá esté de acuerdo en que se aplica la siguiente descripción:

Correlación es un análisis que hace suposiciones sobre la distribución de $(X,Y)$ sin privilegiar ninguna de las dos variables, y utiliza los datos para extraer conclusiones más específicas sobre esa distribución.

Por ejemplo, podría empezar por suponer $(X,Y)$ tiene una distribución Normal bivariante y utilizar el coeficiente de correlación de Pearson de los datos para estimar uno de los parámetros de dicha distribución. Ésta es una de las concepciones más estrechas (y antiguas) de la correlación.

Como otro ejemplo, usted podría estar asumiendo $(X,Y)$ podría haber cualquier y utilizar un análisis de conglomerados para identificar $k$ "centros". Se podría interpretar como el inicio de una resolución de la distribución de $(X,Y)$ en una mezcla de distribuciones bivariantes unimodales, una para cada conglomerado.

Algo común a todos estos enfoques es un tratamiento simétrico de $X$ y $Y$ Ninguno de los dos tiene privilegio sobre el otro. Ambos desempeñan papeles equivalentes.

Regresión

Regresión goza de una definición clara y universalmente entendida:

La regresión caracteriza la distribución condicional de $Y$ (la respuesta) dada $X$ (el regresor).

Históricamente, la regresión hunde sus raíces en el descubrimiento de Galton (c. 1885) de que los datos normales bivariados $(X,Y)$ disfrutar de un lineal regresión: la expectativa condicional de $Y$ es una función lineal de $X$ . En un polo del espectro especial-general se encuentra la regresión por mínimos cuadrados ordinarios (MCO), en la que la distribución condicional de $Y$ se supone que es Normal $(\beta_0+\beta_1 X, \sigma^2)$ para parámetros fijos $\beta_0, \beta_1,$ y $\sigma$ que debe estimarse a partir de los datos.

En el extremo extremadamente general de este espectro se encuentran los modelos lineales generalizados, los modelos aditivos generalizados y otros de su clase que relajan todos los aspectos de OLS: la expectativa, la varianza e incluso la forma de la distribución condicional de $Y$ puede variar de forma no lineal con $X$ . El concepto que sobrevive a toda esta generalización es que el interés sigue centrado en comprender cómo $Y$ depende de $X$ . Esa asimetría fundamental sigue ahí.

Correlación y regresión

Una situación muy especial es común a ambos enfoques y se encuentra con frecuencia: el modelo Normal bivariante. En este modelo, un diagrama de dispersión de datos adoptará una forma clásica de "balón de fútbol", óvalo o cigarro: los datos se extienden elípticamente alrededor de un par de ejes ortogonales.

  • Un análisis de correlación se centra en la "fuerza" de esta relación, en el sentido de que una dispersión relativamente pequeña alrededor del eje principal es "fuerte".

  • Como se ha señalado anteriormente, la regresión de $Y$ en $X$ (e, igualmente, la regresión de $X$ en $Y$ ) es lineal la expectativa condicional de la respuesta es una función lineal del regresor.

(Merece la pena reflexionar sobre las claras diferencias geométricas entre estas dos descripciones: iluminan las diferencias estadísticas subyacentes).

De los cinco parámetros normales bivariantes (dos medias, dos diferenciales y uno más que mide la dependencia entre las dos variables), uno es de interés común: el quinto parámetro, $\rho$ . Está directamente (y simplemente) relacionado con

  1. El coeficiente de $X$ en la regresión de $Y$ en $X$ .

  2. El coeficiente de $Y$ en la regresión de $X$ en $Y$ .

  3. Las varianzas condicionales en cualquiera de las regresiones $(1)$ y $(2)$ .

  4. Los diferenciales de $(X,Y)$ alrededor de los ejes de una elipse (medidos como varianzas).

Un análisis de correlación se centra en $(4)$ sin distinguir las funciones de $X$ y $Y$ .

Un análisis de regresión se centra en las versiones de $(1)$ a través de $(3)$ adecuada a la elección de las variables regresoras y de respuesta.

En ambos casos, la hipótesis $H_0: \rho=0$ desempeña un papel especial: indica que no hay correlación ni variación de $Y$ con respecto a $X$ . Dado que (en esta situación más simple) tanto el modelo de probabilidad como la hipótesis nula son comunes a la correlación y a la regresión, no debería sorprender que ambos métodos compartan un interés por las mismas estadísticas (ya se llamen " $r$ " o " $\hat\beta$ "); que las distribuciones muestrales nulas de esos estadísticos son las mismas; y (por tanto) que las pruebas de hipótesis pueden producir valores p idénticos.

Esta aplicación común, que es la primera que aprende cualquiera, puede hacer difícil reconocer lo diferentes que son la correlación y la regresión en sus conceptos y objetivos. Sólo cuando aprendemos sobre sus generalizaciones se ponen de manifiesto las diferencias subyacentes. Sería difícil interpretar que un GAM proporciona mucha información sobre la "correlación", del mismo modo que sería difícil enmarcar un análisis de conglomerados como una forma de "regresión". Los dos son familias diferentes de procedimientos con objetivos distintos, cada uno útil por derecho propio cuando se aplica adecuadamente.


Espero que este repaso bastante general y algo vago haya iluminado algunas de las formas en que "estas cuestiones son más profundas que simplemente si $r$ y $\hat\beta$ deben ser numéricamente iguales". La apreciación de estas diferencias me ha ayudado a comprender lo que intentan conseguir las distintas técnicas, así como a utilizarlas mejor en la resolución de problemas estadísticos.

5voto

Carl Raymond Puntos 2797

Como sugiere la respuesta de @whuber, hay una serie de modelos y técnicas que pueden caer bajo el paraguas de la correlación que no tienen análogos claros en el mundo de la regresión y viceversa. Sin embargo, en general, cuando la gente piensa, compara y contrasta regresión y correlación, en realidad está considerando dos caras de la misma moneda matemática (normalmente una regresión lineal y una correlación de Pearson). El hecho de que deban adoptar una visión más amplia de ambas familias de análisis es un debate aparte, con el que los investigadores deberían lidiar al menos mínimamente.

En definitiva, a la hora de evaluar la correlación y la regresión en sus aplicaciones más habituales, hay que hacer distinciones conceptuales entre ambas, pero no matemáticas, aparte de una transformación lineal de $x$ y $y$ para especificar ciertas propiedades distributivas de $(x,y)$ .

En esta estrecha visión de la regresión y la correlación, las siguientes explicaciones deberían ayudar a dilucidar cómo y por qué sus estimaciones, errores estándar y valores p son esencialmente variantes unos de otros.

Con el marco de datos dat siendo el longley obtenemos lo siguiente para la prueba cor. (No hay nada nuevo aquí a menos que te hayas saltado la pregunta anterior y hayas ido directamente a leer las respuestas):

> cor.test(dat$Employed, dat$Population)

    Pearson's product-moment correlation

data:  dat$Employed and dat$Population
t = 12.896, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

Y lo siguiente para el modelo lineal (también igual que el anterior):

> summary(lm(Employed~Population, data=dat))

Call:
lm(formula = Employed ~ Population, data = dat)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Ahora, el nuevo componente de esta respuesta. En primer lugar, cree dos nuevas versiones estandarizadas del archivo Employed y Population variables:

> dat$zEmployed<-scale(dat$Employed)
> dat$zPopulation<-scale(dat$Population)

En segundo lugar, vuelve a ejecutar la regresión:

> summary(lm(zEmployed~zPopulation, data=dat))

Call:
lm(formula = zEmployed ~ zPopulation, data = dat)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.40894 -0.27733  0.05755  0.15748  0.54238 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.956e-15  7.211e-02     0.0        1    
zPopulation  9.604e-01  7.447e-02    12.9 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2884 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

¡Voilà! La pendiente de la regresión es igual al coeficiente de correlación anterior. La respuesta a Pregunta 1 es que los supuestos de ambas pruebas son esencialmente los mismos:

  1. Independencia de las observaciones
  2. Una relación lineal entre $x$ y $y$
  3. Residuos con distribución normal y media cero, $e\backsim N(0,\sigma_e^2)$
  4. Los términos de error se distribuyen de forma similar en cada valor predicho de la línea de regresión (es decir, homogeneidad de la varianza del error)

Si no se cumple alguno de estos supuestos, el investigador debe interpretar con cautela los resultados de una correlación o de una regresión lineal simple. Al fin y al cabo, la única diferencia entre una regresión lineal simple y una correlación (en concreto, la de Pearson) es la transformación lineal de ambas variables. $x$ y $y$ en el que ambas variables se centran en la media y se les asigna una varianza de 1 (a veces denominado puntuación z o estandarización).

Para Pregunta 2 Comencemos con el error estándar de la fórmula de la pendiente de regresión utilizada anteriormente (implícita en el código R, pero que se indica claramente a continuación):

$$ b=\frac{\sum(X_i-\bar{X})(Y_i-\bar{Y})}{\sum(X_i-\bar{X})^2} $$

Por lo tanto, si queremos conocer el error típico de $b$ necesitamos poder calcular su varianza (o $Var(b)$ ). Para simplificar la notación podemos decir $\mathbf{X_i}=(X_i-\bar{X})$ y $\mathbf{Y_i}=(Y_i-\bar{Y})$ lo que significa que...

$$ Var(b)=Var(\frac{\sum(\mathbf{X_i}\mathbf{Y_i})}{\sum(\mathbf{X_i}^2)}) $$

A partir de esa fórmula se puede llegar a la siguiente expresión, condensada y más útil ( consulte este enlace para ver el paso a paso ):

$$ Var(b)=\frac{\sigma_e^2}{\sum(X_i-\bar{X})^2} $$ $$ SE(b) =\sqrt{Var(b)}=\sqrt{\frac{\sigma_e^2}{\sum(X_i-\bar{X})^2}} $$

donde $\sigma_e^2$ representa la varianza de los residuos.

Creo que si resuelve esta ecuación para los modelos lineales no estandarizados y estandarizados (es decir, de correlación), obtendrá los mismos valores p y t para las pendientes. Ambas pruebas se basan en la estimación por mínimos cuadrados ordinarios y hacen las mismas suposiciones. En la práctica, muchos investigadores se saltan la comprobación de supuestos tanto para los modelos de regresión lineal simple como para las correlaciones, aunque creo que es incluso más frecuente hacerlo para las correlaciones, ya que mucha gente no las reconoce como casos especiales de regresiones lineales simples. (Nota: no es una buena práctica).

0voto

Brian Puntos 125

A continuación se explica la equivalencia de la prueba, mostrando también cómo se relacionan r y b.

http://www.real-statistics.com/regression/hypothesis-testing-significance-regression-line-slope/

Para realizar OLS, hay que hacer https://en.wikipedia.org/wiki/Ordinary_least_squares#Assumptions

Además, OLS y corr requieren el supuesto de muestreo aleatorio.

Construcción de una prueba de corr asume:

Tenemos una "muestra aleatoria y suficientemente grande" de la población de (x,y).

0voto

kkutzera7 Puntos 19

Respecto a la pregunta 2

cómo calcular el mismo valor t utilizando r en lugar de β1

No creo que sea posible calcular el $t$ estadística del $r$ sin embargo, la misma inferencia estadística puede derivarse del valor $F$ cuando la hipótesis alternativa es que el modelo no explica los datos, y se puede calcular a partir de $r$ . $$ F = \frac{r^2/k}{(1-r^2)/(n-k)} $$

Con $k=2$ parámetros del modelo y $n=datapoints$

Con la restricción de que

...la relación F no puede utilizarse cuando el modelo no tiene intercepción

Fuente: Comprobación de hipótesis en el modelo de regresión múltiple

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X