45 votos

¿Cómo interpretar la salida del método de resumen de un objeto lm en R?

Estoy utilizando datos de muestra de algas para entender un poco más la minería de datos. He utilizado los siguientes comandos:

data(algae)
algae <- algae[-manyNAs(algae),]
clean.algae <-knnImputation(algae, k = 10)
lm.a1 <- lm(a1 ~ ., data = clean.algae[, 1:12])
summary(lm.a1)

Posteriormente recibí los resultados que aparecen a continuación. Sin embargo, no puedo encontrar una buena documentación que explique lo que significa la mayor parte de estos resultados, especialmente el error estándar, el valor t y el Pr.

¿Puede alguien tener la amabilidad de arrojar algo de luz, por favor? Y lo que es más importante, ¿qué variables debo mirar para saber si un modelo me está dando buenos datos de predicción?

Call:
lm(formula = a1 ~ ., data = clean.algae[, 1:12])

Residuals:
  Min      1Q  Median      3Q     Max 
  -37.679 -11.893  -2.567   7.410  62.190 

  Coefficients:
                Estimate Std. Error t value Pr(>|t|)   
  (Intercept)  42.942055  24.010879   1.788  0.07537 . 
  seasonspring  3.726978   4.137741   0.901  0.36892   
  seasonsummer  0.747597   4.020711   0.186  0.85270   
  seasonwinter  3.692955   3.865391   0.955  0.34065   
  sizemedium    3.263728   3.802051   0.858  0.39179   
  sizesmall     9.682140   4.179971   2.316  0.02166 * 
  speedlow      3.922084   4.706315   0.833  0.40573   
  speedmedium   0.246764   3.241874   0.076  0.93941   
  mxPH         -3.589118   2.703528  -1.328  0.18598   
  mnO2          1.052636   0.705018   1.493  0.13715   
  Cl           -0.040172   0.033661  -1.193  0.23426   
  NO3          -1.511235   0.551339  -2.741  0.00674 **
  NH4           0.001634   0.001003   1.628  0.10516   
  oPO4         -0.005435   0.039884  -0.136  0.89177   
  PO4          -0.052241   0.030755  -1.699  0.09109 . 
  Chla         -0.088022   0.079998  -1.100  0.27265   
  ---
  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

  Residual standard error: 17.65 on 182 degrees of freedom
  Multiple R-squared:  0.3731,    Adjusted R-squared:  0.3215 
  F-statistic: 7.223 on 15 and 182 DF,  p-value: 2.444e-12

33voto

AdamSane Puntos 1825

Parece que necesitas un texto de estadística básica decente que cubra al menos las pruebas de localización básicas, la regresión simple y la regresión múltiple.

Error estándar, valor t y Pr.

  1. Std. Error es la desviación estándar de la distribución muestral de la estimación del coeficiente bajo los supuestos de regresión estándar de regresión estándar. Estas desviaciones estándar se denominan errores estándar de la cantidad correspondiente (la estimación del coeficiente en este caso).

    En el caso de la regresión simple, se suele denotar $s_{\hat \beta}$ , como aquí . Ver también este

    Para la regresión múltiple, es un poco más complicado, pero si si no sabes lo que son estas cosas, probablemente sea mejor entenderlas en el contexto de la regresión simple primero.

  2. t value es el valor del estadístico t para comprobar si el coeficiente de regresión correspondiente es diferente de 0.

    La fórmula para calcularla se indica en el primer enlace anterior.

  3. Pr. es el Valor p para la prueba de hipótesis para la que el valor t es el estadístico de la prueba. En le indica la probabilidad de un estadístico de prueba al menos tan inusual como como la que ha obtenido, si la hipótesis nula fuera cierta . En este caso, la hipótesis nula es que el coeficiente verdadero es cero; si esa probabilidad es baja, está sugiriendo que sería raro obtener obtener un resultado tan inusual como éste si el coeficiente fuera realmente cero.


Y lo que es más importante, ¿en qué variables debo fijarme para saber si un modelo me da buenos datos de predicción?

¿Qué quiere decir con "buenos datos de predicción"? ¿Puede aclarar lo que está pidiendo?

El Residual standard error que suele llamarse $s$ representa la desviación estándar de los residuos. Es una medida de lo cerca que está el ajuste de los puntos.

El Multiple R-squared , también llamado coeficiente de determinación es la proporción de la varianza de los datos que explica el modelo. Cuantas más variables se añadan, aunque no ayuden, mayor será esta proporción. La página web Adjusted un lo reduce para tener en cuenta el número de variables del modelo.

El $F$ estadística en la última línea le dice si la regresión en su conjunto está funcionando "mejor que el azar" - cualquier conjunto de predictores aleatorios tendrá alguna relación con la respuesta, por lo que está viendo si su modelo se ajusta mejor de lo que esperaría si todos sus predictores no tuvieran ninguna relación con la respuesta (más allá de lo que se explicaría por esa aleatoriedad). Esto se utiliza para comprobar si el modelo supera al "ruido" como predictor. El valor p de la última fila es el valor p de esa prueba, que básicamente compara el modelo completo que ajustó con un modelo de sólo intercepción.


¿De dónde proceden los datos? ¿Están en algún paquete?

8voto

Juriy Puntos 133

El Error estándar es una estimación de la varianza de la fuerza del efecto, o la fuerza de la relación entre cada variable causal y la variable predicha. Si es alta, entonces el tamaño del efecto tendrá que ser más fuerte para que podamos estar seguros de que es un efecto real, y no sólo un artefacto del azar.

El Estadística t es una estimación de lo extremo que es el valor que se ve, en relación con el error estándar (suponiendo una distribución normal, centrada en la hipótesis nula).

El Valor p es una estimación de la probabilidad de ver un valor t tan extremo o más extremo que el obtenido, si se asume que la hipótesis nula es verdadera (la hipótesis nula suele ser "ningún efecto", a menos que se especifique otra cosa). Por lo tanto, si el valor p es muy bajo, entonces hay una mayor probabilidad de que se estén viendo datos que sean contrarios a un efecto nulo. En otras situaciones, se puede obtener un valor p basado en otras estadísticas y variables.

Por desgracia, si esta explicación del valor p resulta confusa, es porque todo el concepto es confuso. Es importante señalar que, técnicamente, un valor p bajo no mostrar una alta probabilidad de un efecto, aunque puede indicar que. Lea algunos de los preguntas de alto valor p para tener una idea de lo que está pasando aquí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X