La respuesta anterior es correcta. Para referencia, aquí hay algunos elaborados de trabajo código R para calcular. Tengo que tomar la libertad de agregar una intercepción, porque probablemente lo quiero uno de esos.
## make some data
set.seed(1234)
N <- 2000
x1 <- rnorm(N)
x2 <- rnorm(N)
## create linear predictor
lpred <- 0.5 + 0.5 * x1 + 0.25 * x2
## apply inverse link function
ey <- 1/(1 + exp(-lpred))
## sample some dependent variable
y <- rbinom(N, prob=ey, size=rep(1,N))
dat <- matrix(c(x1, x2, y), nrow=N, ncol=3)
colnames(dat) <- c('x1', 'x2', 'y')
Ahora, la construcción de un registro de probabilidad de la función a maximizar, por medio de la dbinom
porque es allí, y sumar los resultados
## the log likelihood function
log.like <- function(beta, dat){
lpred <- beta[1] + dat[,'x1'] * beta[2] + dat[,'x2'] * beta[2]**2
ey <- 1/(1 + exp(-lpred))
sum(dbinom(dat[,'y'], prob=ey, size=rep(1,nrow(dat)), log=TRUE))
}
y ajustar el modelo por máxima verosimilitud. Yo no he molestado a ofrecer un gradiente o elegir un método de optimización, pero es posible que desee hacer tanto.
## fit
res <- optim(par=c(1,1), ## starting values
fn=log.like,
control=list(fnscale=-1), ## maximise not minimise
hessian=TRUE, ## for SEs
dat=dat)
Ahora mira los resultados. El ML estimaciones de los parámetros y asintótica SEs son:
## results
data.frame(coef=res$par,
SE=sqrt(diag(solve(-res$hessian))))
que debe ser
## coef SE
## 1 0.4731680 0.04828779
## 2 0.5799311 0.03363505
o hay un bug (que siempre es posible).
Las habituales advertencias acerca de Hesse-derivados de los errores estándar se aplican.