8 votos

Elija el mejor modelo entre logit, probit y nls

Estoy analizando un cierto conjunto de datos, y necesito entender cómo elegir el mejor modelo que se ajuste a mis datos. Estoy usando R.

Un ejemplo de los datos que tengo es el siguiente:

corr <- c(0, 0, 10, 50, 70, 100, 100, 100, 90, 100, 100)

Estos números corresponden al porcentaje de respuestas correctas, bajo 11 condiciones diferentes ( cnt ):

cnt <- c(0, 82, 163, 242, 318, 390, 458, 521, 578, 628, 673)

Primero intenté ajustar un modelo probit y un modelo logit. Ahora mismo he encontrado en la literatura otra ecuación para ajustar datos similares a los míos, así que intenté ajustar mis datos, usando el nls función, según esa ecuación (pero no estoy de acuerdo con eso, y el autor no explica por qué usó esa ecuación).

Aquí está el código de los tres modelos que tengo:

resp.mat <- as.matrix(cbind(corr/10, (100-corr)/10))
ddprob.glm1 <- glm(resp.mat ~ cnt, family = binomial(link = "logit"))
ddprob.glm2 <- glm(resp.mat ~ cnt, family = binomial(link = "probit"))

ddprob.nls <- nls(corr ~ 100 / (1 + exp(k*(AMP-cnt))), start=list(k=0.01, AMP=5))

Ahora he trazado los datos y las tres curvas ajustadas:

pcnt <- seq(min(cnt), max(cnt), len = max(cnt)-min(cnt)) 
pred.glm1 <- predict(ddprob.glm1, data.frame(cnt = pcnt), type = "response", se.fit=T) 
pred.glm2 <- predict(ddprob.glm2, data.frame(cnt = pcnt), type = "response", se.fit=T) 
pred.nls <- predict(ddprob.nls, data.frame(cnt = pcnt), type = "response", se.fit=T)

plot(cnt, corr, xlim=c(0,673), ylim = c(0, 100), cex=1.5)
lines(pcnt, pred.nls, lwd = 2, lty=1, col="red", xlim=c(0,673))
lines(pcnt, pred.glm2$fit*100, lwd = 2, lty=1, col="black", xlim=c(0,673)) #$
lines(pcnt, pred.glm1$fit*100, lwd = 2, lty=1, col="green", xlim=c(0,673))

Ahora, me gustaría saber: ¿cuál es el mejor modelo para mis datos?

  • probit
  • logit
  • nls

Los logLik de los tres modelos son:

> logLik(ddprob.nls)
'log Lik.' -33.15399 (df=3)
> logLik(ddprob.glm1)
'log Lik.' -9.193351 (df=2)
> logLik(ddprob.glm2)
'log Lik.' -10.32332 (df=2)

¿Es el logLik suficiente para elegir el mejor modelo? (Sería el modelo logit, ¿verdad?) ¿O hay algo más que tenga que calcular?

2voto

alexs77 Puntos 36

La cuestión de qué modelo utilizar tiene que ver con el objetivo del análisis.

Si el objetivo es desarrollar un clasificador para predecir los resultados binarios, entonces (como puede ver), estos tres modelos son todos aproximadamente iguales y le dan aproximadamente el mismo clasificador. Eso lo convierte en un punto discutible, ya que no le importa qué modelo desarrolla su clasificador y podría utilizar la validación cruzada o la validación de muestra dividida para determinar qué modelo funciona mejor con datos similares.

Por inferencia, todos los modelos estiman diferentes parámetros de los modelos. Los tres modelos de regresión son casos especiales de GLMs que utilizan una función de enlace y una estructura de varianza para determinar la relación entre un resultado binario y (en este caso) un predictor continuo. El NLS y el modelo de regresión logística utilizan la misma función de enlace (el logit) pero el NLS minimiza el error cuadrado en el ajuste de la curva S, donde como la regresión logística es una estimación de máxima verosimilitud de los datos del modelo bajo el supuesto del modelo lineal para las probabilidades del modelo y la distribución binaria de los resultados observados. No se me ocurre ninguna razón por la que consideremos que la S.L.A. es útil para la inferencia.

La regresión de Probit utiliza una función de enlace diferente que es la función de distribución normal acumulativa. Ésta "se va estrechando" más rápidamente que un logit y se suele utilizar para hacer inferencias sobre datos binarios que se observan como un umbral binario de resultados continuos no observados de distribución normal.

Empíricamente, el modelo de regresión logística se utiliza mucho más a menudo para el análisis de datos binarios, ya que el coeficiente del modelo (odds-ratio) es fácil de interpretar, es una técnica de máxima verosimilitud y tiene buenas propiedades de convergencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X