12 votos

¿La correlación o el coeficiente de determinación se relacionan con el porcentaje de valores que caen a lo largo de una línea de regresión?

Correlación, $r$, es una medida de asociación lineal entre dos variables. Coeficiente de determinación, $r^2$, es una medida de cuánto de la variabilidad de una variable puede ser "explicado por" la variación en el otro.

Por ejemplo, si $r = 0.8$ es la correlación entre dos variables, a continuación,$r^2 = 0.64$. Por lo tanto, el 64% de la variabilidad en uno puede ser explicado por diferencias en la otra. A la derecha?

Mi pregunta es, para el ejemplo indicado, es cualquiera de las siguientes afirmaciones correctas?

  1. El 64% de los valores caen a lo largo de la línea de regresión
  2. El 80% de los valores caen a lo largo de la línea de regresión

16voto

Rémy Roux Puntos 28

Tienes razón con la primera parte de su declaración. La forma habitual de interpretar el coeficiente de determinación ($R^{2}$ es el porcentaje de la variación de la variable dependiente $y$ ($Var(y)$) que somos capaces de explicar con las variables explicativas. La interpretación exacta y la derivación del coeficiente de determinación ($R^{2}$ se puede encontrar aquí

http://economictheoryblog.com/2014/11/05/the-coefficient-of-determination-latex-r2/

Sin embargo, una forma menos conocida de la interpretación del coeficiente de determinación ($R^{2}$ es interpretarlo como el Cuadrado de Pearson el Coeficiente de Correlación entre los valores observados $y_{i}$ y los valores ajustados $\hat{y}_{i}$. La prueba de que el coeficiente de determinación es el equivalente al Cuadrado de Pearson el Coeficiente de Correlación entre los valores observados $y_{i}$ y los valores ajustados $\hat{y}_{i}$ se puede encontrar aquí

http://economictheoryblog.com/2014/11/05/proof/

En mi opinión son estos los únicos significativos maneras de interpretar el coeficiente de determinación ( $R^{2}$ . De ello se sigue que las dos declaraciones que usted hizo no puede ser derivada de la $R^{2}$.

11voto

Zizzencs Puntos 1358

La primera parte de esta es básicamente correcta, pero el 64% de la variación es explicada por el modelo. En una regresión lineal simple: Y ~ X, si $R^2$ .64 esto significa que el 64% de la variación en Y es determinado por la relación lineal entre y y X. es posible tener una fuerte relación con muy bajo $R^2$, si la relación es fuertemente no lineal.

Con respecto a tus dos preguntas numeradas, ni es correcto. De hecho, es posible que ninguno de los puntos puede estar exactamente sobre la línea de regresión. Eso no es lo que está siendo medido. Más bien, es una cuestión de cómo cerrar el punto medio es la línea. Si todos o casi todos los puntos están cerca (aunque no es exactamente sobre la línea), a continuación, $R^2$ será alto. Si la mayoría de los puntos están muy lejos de la línea, $R^2$ será baja. Si la mayoría de los puntos están cerca, pero son pocos los que, a continuación, la regresión es incorrecta (problema de valores atípicos). Otras cosas pueden salir mal, también.

Además, me he dejado la noción de "mucho" más bien vaga. Esto dependerá de cómo se extendió la X son. Hacer estas nociones precisas es parte de lo que se aprende en un curso de regresión; no voy a entrar en eso aquí.

2voto

Rafe Puntos 116

Niether 1 ni 2 es correcto.

Digamos que está intentando predecir un conjunto de valores$\pmb{y}$ a partir de un conjunto de valores$\pmb{x}$ usando una regresión lineal. Tu modelo es

PS

Donde$$y_i = b + mx_i + \epsilon_i$ es un poco de ruido. $\epsilon_i \sim \mathcal{N(0,\sigma^2)}$ significa que el 64% de la varianza de$R^2=.64$ puede explicarse por la variabilidad en$y$ bajo su modelo. La varianza residual ( es decir , la varianza sin explicación) es de 0,36. Es decir, si:

PS

Entonces

PS

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X