Estoy tratando de entender el comportamiento de la regresión logística en alta dimensional problemas (es decir, cuando el ajuste de una regresión logística para datos con un alto número de variables predictoras).
Cada vez que el ajuste de una regresión logística con un alto número de predictores, me sale la siguiente advertencia en R:
Warning message:
glm.fit: fitted probabilities numerically 0 or 1 occurred
He leído por ahí que este es el llamado Hauck-Donner fenómeno es debido al hecho de que el conjunto de las probabilidades están demasiado cerca de la 0/1.
Sin embargo, mi hipótesis es que a medida que aumenta el número de factores, las variaciones de su equipados probabilidades tiene que aumentar la regresión logística. Esto es debido a que sus probabilidades de registro de las estimaciones es esencialmente una suma de variables aleatorias, y una suma de 100 distribuyeron de manera similar variables aleatorias (probablemente) tiene una mayor varianza de una suma de 10 vehículos recreativos. Por lo tanto, al aplicar la regresión logística para muy altas dimensiones de los problemas, su equipado probabilidades estará más cerca de la 0/1 (porque el aumento de la varianza), y por lo tanto su coeficiente de estimaciones deben ser parcial (incorrecta) a causa de este problema? Es esta hipótesis la correcta?
He creado una simulación con el código siguiente para intentar responder a esta:
genLogit <- function(n,dimens){
dimens <- floor(dimens/2)*2 #make sure dimens is even
xdata <- cbind(replicate(dimens/2,runif(n)),replicate(dimens/2,runif(n,-1,0)))
ydata <- apply(xdata,1,sum)
prob <- exp(ydata)/(1+exp(ydata))
runis <- runif(length(prob))
ydata <- ifelse(runis<prob,1,0)
model <- glm(ydata~.,data = data.frame(cbind(ydata,xdata)),family = binomial(link =
return(summary(model))
}
Lo que hace el código es básicamente la simulación de una regresión logística de las siguientes opciones:
$$\log\left(\frac{p}{1-p}\right) = U_1+U_1+\ldots+U_1 + U_{-1}+U_{-1}+\ldots+U_{-1}$$
where $U_1 = \text{Unif}(0,1)$ and $U_{-1} = \text{Unif}(-1,0)$. Se puede variar el número de predictores en el modelo, así como el número de puntos de datos generados. A continuación, la función de ajuste de una regresión logística a los datos simulados, y usted puede examinar los coeficientes residual, la desviación, la fit, etc.
Yo entiendo que todos los de mi predictores tienen la misma varianza (lo cual no es necesariamente cierto cuando se trata con datos reales), pero es esta simulación aún suficientes para demostrar mi hipótesis?