12 votos

¿Cuándo coeficientes estimados por la logística y logit-regresión lineal se diferencian?

Cuando el modelado continuo proporciones (por ejemplo, proporcional de la cobertura de vegetación en la encuesta quadrats, o de la proporción de tiempo que ejercen una actividad), la regresión logística es considerado inapropiado (por ejemplo, Warton Y Hui (2011) El arcoseno es asnal: el análisis de las proporciones en la ecología). Más bien, de regresión OLS después logit-la transformación de las proporciones, o tal vez la beta de la regresión, son las más apropiadas.

¿Bajo qué condiciones el coeficiente de estimaciones logit-regresión lineal y regresión logística difieren cuando se usa R lm y glm?

Tome el siguiente conjunto de datos simulados, donde podemos suponer que p son nuestros datos en bruto (es decir, continua proporciones, más que la representación de ${n_{successes}\over n_{trials}}$):

set.seed(1)
x <- rnorm(1000)
a <- runif(1)
b <- runif(1)
logit.p <- a + b*x + rnorm(1000, 0, 0.2)
p <- plogis(logit.p)

plot(p ~ x, ylim=c(0, 1))

enter image description here

El ajuste de un logit-modelo lineal, se obtiene:

summary(lm(logit.p ~ x))
## 
## Call:
## lm(formula = logit.p ~ x)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.64702 -0.13747 -0.00345  0.15077  0.73148 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.868148   0.006579   131.9   <2e-16 ***
## x           0.967129   0.006360   152.1   <2e-16 ***
## ---
## Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
## 
## Residual standard error: 0.208 on 998 degrees of freedom
## Multiple R-squared:  0.9586, Adjusted R-squared:  0.9586 
## F-statistic: 2.312e+04 on 1 and 998 DF,  p-value: < 2.2e-16

Regresión logística de la producción:

summary(glm(p ~ x, family=binomial))
## 
## Call:
## glm(formula = p ~ x, family = binomial)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.32099  -0.05475   0.00066   0.05948   0.36307  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.86242    0.07684   11.22   <2e-16 ***
## x            0.96128    0.08395   11.45   <2e-16 ***
## ---
## Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 176.1082  on 999  degrees of freedom
## Residual deviance:   7.9899  on 998  degrees of freedom
## AIC: 701.71
## 
## Number of Fisher Scoring iterations: 5
## 
## Warning message:
## In eval(expr, envir, enclos) : non-integer #successes in a binomial glm!

Se la regresión logística de los coeficientes estimados de ser siempre imparcial con respecto a la logit-lineal del modelo estimaciones?

5voto

patfla Puntos 1

Tal vez esto puede ser contestada en el "reverso" de la moda - I. e. cuando son lo mismo?

Ahora las NIÑAS algoritmo utilizado en la regresión logística que da una idea aquí. En la convergencia puede expresar el modelo de coeficientes como:

$$\hat {\beta}_{logistic}=\left (X^TWX\right)^{-1} X^TWz$$

where $ W $ is a diagonal weight matrix with ith term $ W_{ii}=n_ip_i (1-p_i) $ and $ z $ is a pseudo response that has ith element $ z_i=x_i^T\hat {\beta}_{logística} +\frac {y_i -n_ip_i}{n_ip_i (1-p_i)} $. Note that $ var (z_i -x_i^T\hat {\beta})=W_{ii}^{-1} $ which makes logistic regression seem very similar to weighted least squares on a "logit type" of quantity. Note that all the relationships are implicit in logistic regression (eg $z $ depends on $\beta $ which depends on $ z $).

So I would suggest that the difference is mostly in using weighted least squares (logistic) vs unweighted least squares (ols on logits). If you weighted the logits $\log (y)-\log (n-y) $ by $ y (1-y/n)$ (where $ s $ is the number of "events" and $ $ n el número de "pruebas") en la lm () llame usted podría conseguir más resultados similares.

3voto

JellicleCat Puntos 356

Por favor, no dude en ponerse en el punto de que si yo estoy equivocado.

En primer lugar, tengo que decir que, en la segunda forma, llamada glm en un camino equivocado! Para el ajuste de una regresión logística por glm, la respuesta debería ser (binario) de la variable categórica, pero la utilización de la p, una variable numérica! Tengo que decir warning es demasiado suave para permitir a los usuarios conocer sus errores...

Y, como es de esperar, obtener estimaciones de los coeficientes de las dos se ajusta sólo por CASUALIDAD. Si reemplaza logit.p <- a + b*x + rnorm(1000, 0, 0.2) con logit.p <- a + b*x + rnorm(1000, 0, 0.7), es decir, el cambio de la varianza del término de error de 0.2 a 0.7, a continuación los resultados de los dos se adapta será muy diferente, aunque el segundo ajuste (glm) no tiene sentido en absoluto...

La regresión logística se utiliza para (binario) de la clasificación, por lo que debe tener respuesta categórica, como se indicó anteriormente. Por ejemplo, las observaciones de la respuesta debería ser una serie de "éxito" o "fracaso", en lugar de una serie de "probabilidad (frecuencia)" como en sus datos. Para un determinado conjunto de datos categóricos, se puede calcular sólo una frecuencia global de "respuesta=éxito" o "respuesta=fracaso", en lugar de una serie. En los datos que generan, no hay ninguna variable categórica en todo, así que es imposible aplicar la regresión logística. Ahora usted puede ver, aunque tienen una apariencia similar, logit-regresión lineal (como se llame) es un simple REGRESIÓN lineal problema (es decir, la respuesta es una variable numérica) utilizando la transformada de la respuesta (como sqr, sqrt transformación), y la regresión logística es un problema de CLASIFICACIÓN (es decir, la respuesta es una variable categórica; no se confunde con la palabra "regresión" en "regresión logística").

Normalmente, la regresión lineal es provisto a través de mínimos Cuadrados Ordinarios (MCO), que minimiza el cuadrado de la pérdida de regresión del problema; la regresión logística es provisto a través de la Estimación de Máxima Verosimilitud (MLE), lo cual minimiza el registro de la pérdida para el problema de clasificación. Aquí hay una referencia en la pérdida de las funciones de Pérdida de Función, Deva Ramanan. En el primer ejemplo, respecto p como la respuesta, y ajuste ordinario modelo de regresión lineal por MCO; en el segundo ejemplo, dígale R que se ajuste un modelo de regresión logística family=binomial, lo R ajuste al modelo por el MLE. Como se puede ver, en el primer modelo, se obtiene de la prueba t y la prueba F, que son clásicos salidas de la OPERACIÓN de ajuste para la regresión lineal. En el segundo modelo, la importancia de la prueba de coeficiente se basa en z en lugar de t, que es la clásica salida de MLE ajuste de la regresión logística.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X