El coeficiente de correlación se escribe generalmente con un % de capital $R$pero a veces no. ¿Me pregunto si realmente hay una diferencia entre $r^2$y $R^2$? ¿Puede $r$ significar algo distinto de un coeficiente de correlación?
Respuesta
¿Demasiados anuncios?La notación en este asunto parece variar un poco.
$R$ es utilizado en el contexto de la correlación múltiple y se llama la "correlación múltiple coeficiente". Es la correlación entre las respuestas observadas $Y$ e las $\hat Y$ ajustado por el modelo. El $\hat Y$ es generalmente predicho a partir de varias variables predictoras $X_i$, por ejemplo, $\hat Y = \hat \beta_0 + \hat \beta_1 X_1 + \hat \beta_2 X_2$ donde el intercepto y la pendiente de los coeficientes $\hat \beta_i$ han sido estimados a partir de los datos. Tenga en cuenta que $0 \leq R \leq 1$.
El símbolo $r$ es la "muestra el coeficiente de correlación" que se utiliza en el caso bivariante - es decir, hay dos variables, $X$ $Y$ - y por lo general significa que la correlación entre el $X$ $Y$ en la muestra. Usted puede tratar esto como una estimación de la correlación $\rho$ entre las dos variables en el conjunto de la población. Para correlacionar dos variables no es necesario identificar cual es el predictor y cual es la respuesta. De hecho, si usted se ha encontrado correlación entre el $Y$ $X$ sería la misma que la correlación entre el$X$$Y$, debido a que la correlación es simétrica. Tenga en cuenta que $-1 \leq r \leq 1$ cuando el símbolo $r$ se utiliza de esta manera, con $r < 0$ (correlación negativa) si las dos variables tienen un linealmente decreciente de la relación (como uno sube, el otro tiende a ir hacia abajo).
Donde la notación se vuelve incoherente es cuando hay dos variables, $X$$Y$, y una regresión lineal simple se realiza. Esto significa que la identificación de una variable, $Y$, ya que la variable de respuesta, y el otro, $X$, ya que la variable predictora, y ajustar el modelo a $\hat Y = \hat \beta_0 + \hat \beta_1 X$. Algunas personas también utilizan el símbolo $r$ a indicar la correlación entre el$Y$$\hat Y$, mientras que otros (por coherencia con la regresión múltiple) escribir $R$. Tenga en cuenta que la correlación entre el observado y equipado respuestas es necesariamente mayor que o igual a cero. Esta es una razón por la que no me gusta el uso del símbolo de $r$ en este caso: la correlación entre el $X$ $Y$ puede ser negativa, mientras que la correlación entre el $Y$ $\hat Y$ es positivo (de hecho, es simplemente será el módulo de la correlación entre el$X$$Y$), aunque ambos podrían estar escrito con el símbolo $r$. He visto algunos libros de texto, y en los artículos de Wikipedia, cambiar casi indistintamente entre los dos significados de $r$ e pareció innecesariamente confuso. Yo prefiero usar el símbolo $R$ la correlación entre el $Y$$\hat Y$, tanto individuales y de regresión múltiple.
En tanto simple como múltiple, regresion, a continuación, en tanto no haya un término de intersección, instalada en el modelo, el $R$ $Y$ $\hat Y$ es simplemente la raíz cuadrada del coeficiente de determinación ( $R^2$ (a menudo llamado "la proporción de la varianza explicada" o similar). En el caso de regresión lineal simple específicamente, a continuación, $R^2 = r^2$ donde estoy escribiendo $r$ la correlación entre el $X$$Y$, e $R^2$ podría representar el coeficiente de determinación de la regresión o el cuadrado de la correlación entre el$Y$$\hat Y$. Desde $-1 \leq r \leq 1$$0 \leq R \leq 1$, esto significa que $R = |r|$. Así, por ejemplo, si usted consigue una correlación entre el$X$$Y$$r=-0.7$, la correlación entre el $Y$ y el amueblada $\hat Y$ a partir de la regresión lineal simple $Y = \hat \beta_0 + \hat \beta_1 X$ $R = 0.7$ y el coeficiente de determinación quedaría $R^2 = 0.49$ es decir, casi la mitad de la variación en la respuesta sería explicado por el modelo.
Si no hay ningún término de intersección se incluyó en el modelo, entonces el símbolo $R^2$ es ambiguo — es usualmente concebido como el coeficiente de determinación, pero ya que esto generalmente se calcula de una manera diferente a la habitual, así que tenga cuidado cuando la lectura de la salida de su software estadístico), entonces ya no es el mismo como el cuadrado de la correlación múltiple $R$, ni en el caso bivariante será igual $r^2$!