58 votos

Interpretación de R ' s salida de regresión binomial

Soy bastante nuevo en esto con el binomio de datos de pruebas, pero necesitaba hacer uno y ahora no estoy seguro de cómo interpretar el resultado. El eje de la variable, la variable de respuesta, es binomial y los factores explicativos son continuas. Esto es lo que me dieron cuando resumiendo el resultado:

glm(formula = leaves.presence ~ Area, family = binomial, data = n)

Deviance Residuals: 
Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
leaves.presence        0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1 
(Dispersion parameter for binomial family taken to be 1)

Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

Hay un número de cosas que no tengo aquí, ¿qué significa esto realmente decir:

                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
leaves.presence        0.0008166  0.0002472   3.303 0.000956 ***

Y lo hace de la AIC y el Número de Fisher Scoring de iteraciones media?

> fit
Call:  glm(formula = Lövförekomst ~ Areal, family = binomial, data = n)

Coefficients:
(Intercept)        Areal  
-0.3877697    0.0008166  

Degrees of Freedom: 12237 Total (i.e. Null);  12236 Residual
(314 observations deleted due to missingness)
Null Deviance:      16660 
Residual Deviance: 16650        AIC: 16650

Y aquí, ¿qué significa esto:

Coefficients:
(Intercept)        Areal  
-0.3877697    0.0008166 

92voto

Sean Hanley Puntos 2428

Lo que han hecho es la regresión logística. Esto se puede hacer en básicamente cualquier software estadístico, y la salida será similar (al menos en el contenido, aunque la presentación puede variar). Hay una guía de regresión logística con R en la UCLA estadísticas excelente sitio web de ayuda. Si usted no está familiarizado con esto, mi respuesta aquí: diferencia entre los modelos logit y probit, puede ayudar a entender lo que LR es de aproximadamente (aunque está escrito en un contexto diferente).

Parece que tienes dos modelos presentados, yo se centrará principalmente en la parte superior. Además, no parece haber sido un error de copiar y pegar el modelo o salida, así que voy a intercambiar leaves.presence con Area en la salida para que sea coherente con el modelo. Aquí es el modelo que me estoy refiriendo (aviso de que he añadido (link="logit"), que está implícita en family=binomial; ver ?glm y ?de la familia):

glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)

Vamos a caminar a través de esta salida (aviso de que he cambiado el nombre de la variable en la segunda línea de bajo Coefficients):

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
Area                   0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1 
(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

Así como hay residuos en el lineal (OLS) de regresión, puede haber residuos en la regresión logística y otros modelos lineales generalizados. Son más complicadas cuando la variable de respuesta no es continuo, sin embargo. GLiMs puede tener cinco diferentes tipos de residuos, pero lo que viene mencionados son estándar la desviación de los residuos. (La desviación y la desviación de los residuos son más avanzadas, así que voy a ser breve; si el debate es un poco difícil de seguir, no me preocuparía demasiado, se puede omitir):

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Para cada punto de datos utilizados en el modelo, la desviación asociada con punto de que se calcula. Habiendo hecho esto, para cada punto, se tiene un conjunto de estos residuos, y por encima de la de salida es simplemente un no-paramétrico de la descripción de su distribución.


A continuación vemos la información acerca de las covariables, que es lo que la gente normalmente están interesados principalmente en:

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
Area                   0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1 

Para un simple modelo de regresión logística como este, sólo hay una covariable (Area aquí) y el intercepto (a veces también llamado el 'constante'). Si usted tuvo una regresión logística múltiple, no sería covariables adicionales enumerados a continuación de estos, pero la interpretación del resultado sería el mismo. Bajo Estimate en la segunda fila es el coeficiente asociado con la variable que aparece a la izquierda. Es la cantidad estimada por la cual las probabilidades de registro de leaves.presence aumentaría si Area fueron una unidad superior. Las probabilidades de registro de leaves.presence cuando Area es $0$ está justo encima de la primera fila. (Si no está lo suficientemente familiarizado con las probabilidades de registro, puede ayudar a leer mi respuesta aquí: interpretación de las predicciones sencillas para los odds ratios en la regresión logística.) En la siguiente columna, vemos que el error estándar asociado con estas estimaciones. Es decir, son una estimación de cuánto, en promedio, estas estimaciones podría rebotar en torno a si el estudio se re-de la misma manera, pero con los nuevos datos, más y más. (Si usted no está muy familiarizado con la idea de un estándar de error, puede ayudar a leer mi respuesta aquí: cómo interpretar el coeficiente error estándar de la regresión lineal.) Si tuviéramos que dividir la estimación del error estándar, tendríamos un cociente que se supone que se distribuye normalmente con grandes muestras suficientes. Este valor aparece en bajo z value. A continuación Pr(>|z|) están listados los dos colas p-valores que corresponden a los valores z en una distribución normal estándar. Por último, hay el tradicional significado de las estrellas (y nota la tecla debajo de los coeficientes de la tabla).


El Dispersion línea se imprime por defecto con GLiMs, pero no agregar mucha información aquí (es más importante contar con modelos, por ejemplo). Podemos ignorar esto.


Por último, podemos obtener información sobre el modelo y su bondad de ajuste:

    Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

La línea acerca de la missingness a menudo, um, que falta. Se muestra aquí porque tenía 314 observaciones que leaves.presence, Area, o ambos estaban desaparecidos. Los parciales observaciones no fueron utilizados en el ajuste del modelo.

El Residual deviance es una medida de la falta de ajuste del modelo tomado como un todo, mientras que el Null deviance es una medida por una reducción de la modelo que sólo incluye el intercepto. Observe que los grados de libertad asociados con estos dos se diferencia por una sola. Desde el modelo tiene sólo una covariable, sólo un parámetro adicional se ha estimado ( Estimate para Area), y por lo tanto sólo un grado adicional de libertad ha sido consumido. Estos dos valores pueden ser utilizados en la realización de una prueba de la modelo como un todo, que sería análogo a la global $F$-prueba que viene con un modelo de regresión lineal múltiple. Puesto que usted tiene sólo una covariable, esta prueba sería interesante en este caso.

El AIC es otra medida de bondad de ajuste que toma en cuenta la capacidad del modelo para que se ajuste a los datos. Esto es muy útil cuando se comparan dos modelos, donde uno puede encajar mejor, pero tal vez sólo por el hecho de ser más flexible y por lo tanto más capaces de adaptarse a todos los datos. Puesto que usted tiene sólo un modelo, esto es poco informativo.

La referencia a la Fisher scoring iterations tiene que ver con la forma en que el modelo fue estimado. Un modelo lineal puede ser medida por la solución de forma cerrada ecuaciones. Por desgracia, eso no se puede hacer con la mayoría de GLiMs, incluyendo la regresión logística. En su lugar, un enfoque iterativo (el de Newton-Raphson algoritmo por defecto). Vagamente, el modelo se ajuste basado en una suposición acerca de lo que las estimaciones podrían ser. A continuación, el algoritmo mira a su alrededor para ver si el ajuste se podría mejorar mediante el uso de diferentes estimaciones de lugar. Si es así, se mueve en esa dirección (por ejemplo, mediante un mayor valor para la estimación) y, a continuación, ajusta el modelo nuevo. El algoritmo se detiene cuando no percibe que moverse de nuevo daría mucho adicionales de mejora. Esta línea le indica el número de iteraciones que había antes de que el proceso se detuvo y salida de los resultados.



En cuanto al segundo modelo y de salida de la lista, esta es sólo una forma diferente de visualizar los resultados. Específicamente, estos

Coefficients:
(Intercept)       Areal  
-0.3877697    0.0008166

son el mismo tipo de estimaciones se discutió anteriormente (si bien a partir de un modelo diferente y se presenta con menos información complementaria).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X