22 votos

Interpretación de los resultados de la regresión lineal simple

He realizado una regresión lineal simple del logaritmo natural de 2 variables para determinar si están correlacionadas. Mi salida es la siguiente:

R^2 = 0.0893

slope = 0.851

p < 0.001

Estoy confundido. Mirando el $R^2$ valor, diría que las dos variables son no correlacionado, ya que está tan cerca de $0$ . Sin embargo, la pendiente de la línea de regresión es casi $1$ (a pesar de parecer casi horizontal en el gráfico), y el valor p indica que la regresión es altamente significativa.

¿Significa esto que las dos variables son altamente correlacionados? En caso afirmativo, ¿qué $R^2$ ¿valor indicativo?

Debo añadir que el estadístico Durbin-Watson se probó en mi programa informático y no rechazó la hipótesis nula (fue igual a $1.357$ ). Pensé que esto probaba la independencia entre los $2$ variables. En este caso, yo esperaría que las variables fueran dependientes, ya que son $2$ medidas de un ave individual. Estoy haciendo esta regresión como parte de un método publicado para determinar la condición corporal de un individuo, así que asumí que usar una regresión de esta manera tenía sentido. Sin embargo, teniendo en cuenta estos resultados, creo que tal vez para estas aves, este método no es adecuado. ¿Parece una conclusión razonable?

27voto

Niall Puntos 51

El valor estimado de la pendiente no indica por sí solo la fuerza de la relación. La fuerza de la relación depende del tamaño de la varianza del error y del rango del predictor. Además, una $p$ -valor no indica necesariamente que exista una relación fuerte; el $p$ -es simplemente probar si la pendiente es exactamente 0. Para una muestra de tamaño suficientemente grande, incluso pequeñas desviaciones de esa hipótesis (por ejemplo, las que no tienen importancia práctica) producirán un valor significativo. $p$ -valor.

De las tres cantidades que presentaste, $R^2$ El coeficiente de determinación es el mejor indicador de la fuerza de la relación. En tu caso, $R^{2} = .089$ significa que $8.9\%$ de la variación de la variable de respuesta puede explicarse mediante una relación lineal con el predictor. ¿Qué constituye una "gran $R^2$ depende de la disciplina. Por ejemplo, en ciencias sociales $R^2 = .2$ pueden ser "grandes", pero en entornos controlados, como una fábrica, $R^2 > .9$ puede ser necesaria para afirmar que existe una relación "fuerte". En la mayoría de las situaciones $.089$ es muy pequeño $R^2$ por lo que su conclusión de que existe una relación lineal débil es probablemente razonable.

14voto

lostway Puntos 239

En $R^{2}$ indica cuánta variación de la variable dependiente explica un modelo. Sin embargo, se puede interpretar el $R^{2}$ así como la correlación entre los valores originales de la variable dependiente y los valores ajustados. La interpretación exacta y la derivación del coeficiente de determinación $R^{2}$ se puede encontrar aquí .

La prueba de que el coeficiente de determinación es el equivalente del coeficiente de correlación de Pearson al cuadrado entre los valores observados $y_{i}$ y los valores ajustados $\hat{y}_{i}$ se puede encontrar aquí .

En $R^{2}$ o coeficiente de determinación indica la fuerza de su modelo para explicar la variable dependiente. En su caso, $R^{2}=0.089$ . Esto significa que su modelo es capaz de explicar el 8,9% de la variación de su variable dependiente. O, el coeficiente de correlación entre su $y_{i}$ y sus valores ajustados $\hat{y}_{i}$ es 0,089. ¿Qué constituye un buen $R^{2}$ depende de la disciplina.

Por último, a la última parte de su pregunta. La prueba de Durbin-Watson no puede decir nada sobre la correlación entre las variables dependientes e independientes. La prueba de Durbin-Watson comprueba la correlación en serie. Se realiza para examinar si los términos de error están correlacionados entre sí.

9voto

kbyrd Puntos 2441

En $R^2$ indica cuánta variación de los datos explica el modelo ajustado.

La baja $R^2$ en su estudio sugiere que sus datos probablemente están muy dispersos alrededor de la línea de regresión, lo que significa que el modelo de regresión sólo puede explicar (muy poco) el 8,9% de la variación de los datos.

¿Ha comprobado si es apropiado un modelo lineal? Eche un vistazo a la distribución de sus residuos, ya que puede utilizarla para evaluar el ajuste del modelo a sus datos. Lo ideal es que los residuos no muestren una relación con los datos. $x$ y, si es así, puede que quiera pensar en reescalar sus variables de forma adecuada o en ajustar un modelo más apropiado.

8voto

Akira Puntos 1061

Para una regresión lineal, la pendiente ajustada va a ser la correlación (que, cuando se eleva al cuadrado, da el coeficiente de determinación, la $R^2$ ) por la desviación típica empírica del regresor (el $y$ ) dividido por la desviación típica empírica del regresor (el $x$ ). Dependiendo de la escala del $x$ y $y$ puede tener una pendiente de ajuste igual a uno, pero un valor arbitrariamente pequeño de $R^2$ valor.

En resumen, la pendiente no es un buen indicador del "ajuste" del modelo a menos que esté seguro de que las escalas de las variables dependiente e independiente deben ser iguales entre sí.

2voto

David Puntos 41

@Macro tuvo una gran respuesta.

El valor estimado de la pendiente no indica por sí solo la fuerza de la relación. La fuerza de la relación depende del tamaño de la varianza del error y del rango del predictor. Además, un valor pp significativo no indica necesariamente que exista una relación fuerte; el valor pp simplemente comprueba si la pendiente es exactamente 0.

Sólo quiero añadir un ejemplo numérico para mostrar cómo es un caso OP descrito.

  • Bajo $R^2$
  • Significativo en el valor p
  • Pendiente próxima a $1.0$

    set.seed(6)
    y=c(runif(100)*50,runif(100)*50+10)
    x=c(rep(1,100),rep(10,100))
    plot(x,y)
    
    fit=lm(y~x)
    summary(fit)
    abline(fit)
    
    > summary(lm(y~x))
    
    Call:
    lm(formula = y ~ x)
    
    Residuals:
       Min     1Q Median     3Q    Max 
    -24.68 -13.46  -0.87  14.21  25.14 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  25.6575     1.7107  14.998  < 2e-16 ***
    x             0.9164     0.2407   3.807 0.000188 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 15.32 on 198 degrees of freedom
    Multiple R-squared:  0.0682,    Adjusted R-squared:  0.06349 
    F-statistic: 14.49 on 1 and 198 DF,  p-value: 0.0001877

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X