63 votos

Relación entre $R^2$ y coeficiente de correlación

Supongamos que tengo dos arreglos unidimensionales, $a_1$ y $a_2$. Cada uno contiene 100 puntos de datos. $a_1$ son los datos reales y $a_2$ es la predicción del modelo. En este caso, el valor de $R^2$ sería: $$ R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \quad\quad\quad\quad\quad\ \ \quad\quad(1). $$ Mientras tanto, esto sería igual al cuadrado del coeficiente de correlación, $$ R^2 = (\text{Coeficiente de Correlación})^2 \quad (2). $$ Ahora, si intercambio los dos: $a_2$ son los datos reales y $a_1$ es la predicción del modelo. Según la ecuación $(2)$, ya que el coeficiente de correlación no se preocupa por el orden, el valor de $R^2$ sería el mismo. Sin embargo, según la ecuación $(1)$, $SS_{tot}=\sum_i(y_i - \bar y )^2$, el valor de $R^2$ cambiará, porque el $SS_{tot}$ ha cambiado si cambiamos $y$ de $a_1$ a $a_2$; mientras tanto, $SS_{res}=\sum_i(y_i -f_i)^2$ no cambia.

Mi pregunta es: ¿Cómo pueden contradecirse entre sí?

Editar:

  1. Me preguntaba si la relación en la Ec. (2) seguirá siendo cierta si no es una regresión lineal simple, es decir, si la relación entre IV y DV no es lineal (podría ser exponencial / logarítmica)?

  2. ¿Seguirá siendo cierta esta relación si la suma de los errores de predicción no es igual a cero?

0 votos

Encontré esta presentación muy útil y no técnica: google.com/…

36voto

25064 Puntos 11

Una forma de interpretar el coeficiente de determinación $R^{2}$ es verlo como el coeficiente de correlación de Pearson al cuadrado entre los valores observados $y_{i}$ y los valores ajustados $\hat{y}_{i}$.

La prueba completa de cómo derivar el coeficiente de determinación R2 a partir del coeficiente de correlación de Pearson al cuadrado entre los valores observados yi y los valores ajustados y^i se puede encontrar en el siguiente enlace:

http://economictheoryblog.wordpress.com/2014/11/05/proof/

En mi opinión, debería ser bastante fácil de entender, simplemente siga los pasos. Supongo que es esencial mirarlo para entender cómo funciona realmente la relación entre las dos cifras clave.

28voto

Stat Puntos 4224

Es cierto que $SS_{tot}$ cambiará ... pero olvidaste el hecho de que la suma de cuadrados de regresión también cambiará. Así que consideremos el modelo de regresión simple y denotemos el Coeficiente de Correlación como $r_{xy}^2=\dfrac{S_{xy}^2}{S_{xx}S_{yy}$, donde utilicé el subíndice $xy$ para enfatizar el hecho de que $x$ es la variable independiente e $y$ es la variable dependiente. Obviamente, $r_{xy}^2$ no cambia si intercambias $x$ con $y$. Podemos mostrar fácilmente que $SSR_{xy}=S_{yy}(R_{xy}^2)$, donde $SSR_{xy}$ es la suma de cuadrados de regresión y $S_{yy}$ es la suma total de cuadrados donde $x$ es la variable independiente e $y$ es la variable dependiente. Por lo tanto: $$R_{xy}^2=\dfrac{SSR_{xy}}{S_{yy}}=\dfrac{S_{yy}-SSE_{xy}}{S_{yy}},$$ donde $SSE_{xy}$ es la suma de cuadrados residual correspondiente donde $x$ es la variable independiente e $y$ es la variable dependiente. Nota que en este caso, tenemos $SSE_{xy}=b^2_{xy}S_{xx}$ donde $b=\dfrac{S_{xy}}{S_{xx}}$ (Ver por ejemplo Ecuaciones (34)-(41) aquí.) Por lo tanto: $$R_{xy}^2=\dfrac{S_{yy}-\dfrac{S^2_{xy}}{S^2_{xx}}.S_{xx}}{S_{yy}}=\dfrac{S_{yy}S_{xx}-S^2_{xy}}{S_{xx}.S_{yy}}.$$ Claramente la ecuación anterior es simétrica con respecto a $x$ e $y$. En otras palabras: $$R_{xy}^2=R_{yx}^2.$$ Para resumir, cuando cambias $x$ con $y$ en el modelo de regresión simple, tanto el numerador como el denominador de $R_{xy}^2=\dfrac{SSR_{xy}}{S_{yy}}$ cambiarán de tal manera que $R_{xy}^2=R_{yx}^2.

1 votos

¡Muchas gracias! Me di cuenta de que aquí podría estar mi error: $R^2 = r^2$ solo se cumple si 1) la predicción del modelo es una línea recta y 2) la media de la predicción del modelo es igual a la media de los puntos de la muestra. Si la relación entre la VD y la VI no es una línea recta, o la suma de los errores de predicción es distinta de cero, la relación no se cumplirá. ¿Podrías decirme si esto es correcto, por favor?

2 votos

Pensé en esto porque has estado usando $R^2=SS_{reg}/SS_{tot}$, mientras que yo estaba usando la ecuación que publiqué en el OP. Estas dos ecuaciones son equivalentes entre sí solo cuando la suma de los errores de predicción es cero. Por lo tanto, en mi OP, $SS_{res}=\sum_i(f_i-\bar y)^2$ no cambia mientras que $SS_{tot}$ cambió, y por lo tanto el $R^2$ cambió.

0 votos

¿Tienes alguna referencia sobre cómo resolver esto para el caso general de las gaussianas p-variadas?

15voto

aman Puntos 34

En el caso de la regresión lineal simple con solo un predictor $R^2 = r^2 = Corr(x,y)^2$. Pero en la regresión lineal múltiple con más de un predictor, el concepto de correlación entre los predictores y la respuesta no se extiende automáticamente. La fórmula es:

$$R^2 = Corr(y_{estimado},y_{observado})^2$$

El cuadrado de la correlación entre la respuesta y el modelo lineal ajustado.

0 votos

R^=r^2 solo en el modelo nulo. Si hay una línea de regresión R^2 mide cor(\hat{y},y)

5voto

Uri Puntos 111

@Stat ha proporcionado una respuesta detallada. En mi respuesta breve, mostraré brevemente de manera algo diferente cuál es la similitud y diferencia entre $r$ y $r^2.

$r$ es el coeficiente de regresión estandarizado beta de $Y$ por $X$ o de $X$ por $Y y, como tal, es una medida del tamaño del (mutuo) efecto. Lo cual se ve más claramente cuando las variables son dicotómicas. Entonces $r$, por ejemplo, $.30$, significa que el 30% de los casos cambiará su valor opuesto en una variable cuando la otra variable cambie su valor al opuesto.

$r^2$, por otro lado, es la expresión de la proporción de covariabilidad en la variabilidad total: $r^2 = (\frac {cov}{\sigma_x \sigma_y})^2 = \frac {|cov|} {\sigma_x^2} \frac {|cov|} {\sigma_y^2}$. Tenga en cuenta que este es un producto de dos proporciones, o, más preciso decir, dos ratios (un ratio puede ser >1). Si de manera vaga se implica que cualquier proporción o ratio sea una cuasi-probabilidad o propensión, entonces $r^2$ expresa "probabilidad conjunta (propensión)". Otra expresión igualmente válida para el producto conjunto de dos proporciones (o ratios) sería su media geométrica, $\sqrt{prop*prop}$, que es muy $r$.

(Los dos ratios son multiplicativos, no aditivos, para enfatizar la idea de que colaboran y no pueden compensarse entre sí, en su trabajo en equipo. Tienen que ser multiplicativos porque la magnitud de $cov$ depende de ambas magnitudes $\sigma_x^2$ y $\sigma_y^2$ y, consecuentemente, $cov$ tiene que dividirse dos veces a la vez - para convertirse en una "proporción adecuada de la varianza compartida". Pero $cov$, la "covarianza cruzada", comparte las mismas unidades de medida con $\sigma_x^2$ y $\sigma_y^2$, las "varianzas propias", y no con $\sigma_x \sigma_y$, la "varianza híbrida"; por eso $r^2$, no $r$, es más adecuado como "proporción de varianza compartida".)

Entonces, ves que el significado de $r$ y $r^2$ como medida de la cantidad de la asociación es diferente (ambos significados válidos), pero aún así estos coeficientes de ninguna manera se contradicen entre sí. Y ambos son iguales ya sea que predigas $Y\text~X$ o $X\text~Y$.

0 votos

¡Muchas gracias! Estoy empezando a preguntarme si estoy utilizando la definición incorrecta, que dos definiciones de $R^2$ coexisten y no son equivalentes entre sí. ¿Podrías ayudarme en la pregunta de si estoy pensando en casos más generalizados donde el modelo no es una simple regresión lineal (podría ser exponencial) - ¿es mi ecuación en el OP aún correcta para calcular $R^2$? ¿Es esta una cantidad diferente, también llamada $R^2$, pero diferente del "coeficiente de determinación"?

0 votos

El coeficiente de determinación o R-cuadrado es un concepto más amplio que r ^ 2, que se refiere únicamente a la regresión lineal simple. Por favor, lee wikipedia es.wikipedia.org/wiki/Coeficiente_de_determinación.

0 votos

¡Gracias de nuevo! Eso sí entiendo. Mi pregunta es: para regresiones más complejas, ¿puedo seguir elevando al cuadrado el valor de r para obtener el coeficiente de determinación?

1voto

Nick Stauner Puntos 8220

Creo que podrías estar equivocado. Si $R^2=r^2$, asumo que tienes un modelo bivariado: una variable dependiente, una independiente. No creo que $R^2$ cambie si intercambias estas, ni si reemplazas la variable independiente con las predicciones de la variable dependiente que se basan en la variable independiente. Aquí tienes código para una demostración en R:

x=rnorm(1000); y=rnorm(1000)              # almacenar datos aleatorios
summary(lm(y~x))                          # ajustar un modelo de regresión lineal (a)
summary(lm(x~y))                          # intercambiar variables y ajustar el modelo opuesto (b)
z=lm(y~x)$fitted.values; summary(lm(y~z)) # sustituir predicciones por la variable independiente en modelo (a)

Si no estás trabajando con un modelo bivariado, tu elección de variable dependiente afectará a $R^2$...a menos que tus variables estén todas correlacionadas de manera idéntica, supongo, pero esto no es realmente una excepción. Si todas las variables tienen fuerzas de correlación idénticas y también comparten las mismas porciones de la varianza de la variable dependiente (por ejemplo, [o tal vez "es decir"], si algunas variables son completamente idénticas), podrías reducir esto a un modelo bivariado sin perder información. Ya sea que lo hagas o no, $R^2$ seguiría sin cambiar.

En todos los otros casos que se me ocurren con más de dos variables, $R^2\ne r^2$ donde $R^2$ es el coeficiente de determinación y $r$ es un coeficiente de correlación bivariado de cualquier tipo (no necesariamente de Pearson; por ejemplo, posiblemente también un $\rho$ de Spearman).

1 votos

Recientemente realicé una regresión lineal de Theil y luego calculé $R^2=–0.1468$ y $SSR>SST$. He visto que Excel también produce valores de $-R^2$, y al principio me reí de eso, luego lentamente lo entendí y dejó de ser gracioso. ¿Entonces la definición general de $R^2$ es correcta? ¿Qué pasa?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X