Tenemos datos con un resultado binario y algunas covariables. He utilizado la regresión logística para modelar los datos. Es un análisis sencillo, nada extraordinario. El resultado final se supone que es una curva dosis-respuesta donde mostramos cómo cambia la probabilidad para una covariable específica. Algo así:
Recibimos algunas críticas de un revisor interno (no un estadístico puro) por haber elegido la regresión logística. La regresión logística supone (o define) que el punto de inflexión de la curva en forma de S en la escala de probabilidad está en la probabilidad 0,5. Argumentó que no habría ninguna razón para suponer que el punto de inflexión está efectivamente en la probabilidad 0,5 y que deberíamos elegir un modelo de regresión diferente que permita que el punto de inflexión varíe de forma que la posición real dependa de los datos.
Al principio me sorprendió su argumento, ya que nunca había pensado en este punto. No tenía ningún argumento de por qué estaría justificado suponer que el punto de inflexión está en 0,5. Después de investigar un poco, sigo sin tener una respuesta a esta pregunta.
He encontrado la regresión logística de 5 parámetros, para la que el punto de inflexión es un parámetro adicional, pero parece que este modelo de regresión se utiliza normalmente cuando se producen curvas dosis-respuesta con un resultado continuo. No estoy seguro de si puede extenderse a las variables de respuesta binarias ni de cómo hacerlo.
Supongo que mi pregunta principal es por qué o cuándo está bien suponer que el punto de inflexión de una regresión logística está en 0,5. ¿Importa siquiera? Nunca he visto a nadie ajustando un modelo de regresión logística y discutiendo explícitamente la cuestión del punto de inflexión. ¿Existen alternativas para crear una curva dosis-respuesta en la que el punto de inflexión no esté necesariamente en 0,5?
Sólo para completar, el código R para generar la imagen anterior:
dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")
Editar 1:
Sólo para añadir a lo que dijo Scortchi en uno de los comentarios: El revisor efectivamente argumentó que biológicamente podría ser más probable que el cambio de curvatura ocurra antes de 0,5. Por eso su resistencia a asumir que el punto de inflexión está en 0,5.
Editar 2:
Como reacción al comentario de Frank Harrell:
Como ejemplo, he modificado mi modelo anterior para incluir un término cuadrático y otro cúbico en gre
(que es la "dosis" en este ejemplo).
logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+ gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")
A pesar de que probablemente no tenga sentido sumar una cuadrática y una cúbica gre
en este caso, vemos que la forma de la curva dosis-respuesta ha cambiado. De hecho, ahora tenemos dos puntos de inflexión en torno a 0,25 y cerca de 0,7.
2 votos
¿No es lo mismo que pedir que se investiguen las relaciones no lineales de los predictores con las probabilidades logarítmicas de respuesta?