22 votos

¿Por qué utilizar el logit enlace en la beta de la regresión?

Recientemente, he estado interesado en la implementación de un modelo de regresión beta, para un resultado que es una proporción. Tenga en cuenta que este resultado no caben en un binomio de contexto, porque no hay ningún concepto significativo de un discreto "éxito" en este contexto. De hecho, el resultado es en realidad una proporción de duración; el numerador es el número de segundos mientras una determinada condición se activa sobre el total de número de segundos durante los que la condición era elegible para ser activo. Me disculpo por los caprichos, pero no quiero que se centran demasiado en este preciso contexto, porque me doy cuenta de que hay una variedad de formas en las que tal proceso podría ser modelada además de la beta de la regresión, y por ahora estoy más interesado específicamente en cuestiones teóricas que han surgido en mis intentos de llevar a la práctica este modelo (aunque yo soy, por supuesto, abiertos a cualquier sugerencia me señala hacia interesante alternativa estrategias de modelado si usted cree que una beta de la regresión es totalmente inapropiado).

En cualquier caso, todos los recursos que he sido capaz de encontrar han indicado que la beta de la regresión se suelen encajar el uso de un logit (o probit/cloglog) de enlace, y los parámetros que se interpretan como cambios en el log-odds. Sin embargo, todavía tengo que encontrar una referencia que proporciona realmente real de la justificación de por qué uno desea usar este enlace.

El original de Ferrari Y Cribari-Neto (2004) el papel no proporcionar una justificación; se nota que el logit de la función es "especialmente útil", debido a la odds ratio de interpretación de la exponentiated parámetros. Otras fuentes aluden a un deseo de mapa desde el intervalo (0,1) a la línea real. Sin embargo, no nos necesita necesariamente una función de enlace para tal asignación, dado que ya estamos asumiendo una distribución beta? ¿Qué beneficios aporta la función de enlace proporcionan por encima y más allá de las limitaciones impuestas por el supuesto de la distribución beta para empezar? Me he encontrado un par de rápidos simulaciones y no he visto las predicciones fuera de la (0,1) intervalo con una identidad enlace, incluso cuando la simulación de distribuciones beta cuya probabilidad de masa es en gran medida agrupados cerca de 0 o 1, pero tal vez mi simulaciones no han sido lo suficientemente general como para la captura de algunas de las patologías.

A mí me parece que se basa en cómo los individuos, en la práctica, interpretar las estimaciones de los parámetros de la beta modelos de regresión (es decir, como el cociente de probabilidades) que están implícitamente hacer inferencia con respecto a las probabilidades de un "éxito"; es decir, están usando la beta de la regresión como un sustituto de un modelo binomial. Tal vez esto es apropiado en algunos contextos, teniendo en cuenta la relación entre la beta y distribuciones binomiales, pero a mí me parece que esto debería ser más que un caso especial de la general. En esta pregunta, una respuesta para la interpretación de la odds ratio con respecto a la continua proporción más que el resultado, pero a mí me parece innecesariamente complicado para tratar e interpretar las cosas de esta manera, frente a su uso, por ejemplo, un registro de identidad o de enlace y la interpretación de % cambios en la unidad o la cambia.

Así que, ¿por qué usamos el enlace logit para la beta modelos de regresión? Es simplemente como una cuestión de conveniencia, que se relacionan con el binomio modelos?

16voto

Daniel Lew Puntos 39063

La justificación de la función de enlace: Un enlace de la función $g(\mu): (0,1) \rightarrow \mathbb{R}$ asegura que todos los valores ajustados $\hat \mu = g^{-1}(x^\top \hat \beta)$ están siempre en $(0, 1)$. Puede que esto no importa mucho en algunas aplicaciones, por ejemplo, debido a que las predicciones o sólo se evalúa en la muestra o no están demasiado cerca de 0 o 1. Pero puede ser importante en algunas aplicaciones, y que normalmente no se sabe de antemano si importa o no. Los problemas típicos que he visto son: la evaluación de las predicciones de nuevo $x$ valores que son (un poco) fuera del rango original de la muestra de aprendizaje o la búsqueda de adecuados valores de partida. Por último, considere la posibilidad de:

library("betareg")
data("GasolineYield", package = "betareg")
betareg(yield ~ batch + temp, data = GasolineYield, link = make.link("identity"))
## Error in optim(par = start, fn = loglikfun, gr = if (temporary_control$use_gradient) gradfun else NULL,  : 
##   initial value in 'vmmin' is not finite

Pero, por supuesto, uno puede simplemente tratar de las dos opciones y ver si los problemas con la identidad de enlace se producen y/o si mejora el ajuste del modelo.

Interpretación de los parámetros: estoy de acuerdo en que la interpretación de los parámetros en los modelos con funciones de enlace es más difícil que en los modelos con una identidad de enlace y a los profesionales a menudo se equivocan. Sin embargo, también he visto a menudo a las tergiversaciones de los parámetros en los modelos de probabilidad lineal (binario regresiones con identidad enlace, normalmente por mínimos cuadrados). La suposición de que los efectos marginales son constantes, no puede mantener si las predicciones de acercarse lo suficiente a 0 o a 1, y uno tendría que ser muy cuidadosos. E. g., para una observación con $\hat \mu = 0.01$ un aumento en el $x$ no puede conducir a una disminución de $\hat \mu$ de, digamos, $0.02$. Pero esto es a menudo un tratamiento muy descuidada en los escenarios. Por lo tanto, yo diría que para un número limitado de modelo de respuesta de los parámetros de cualquier función de enlace deben ser interpretadas cuidadosamente y puede requerir algo de práctica. Mi consejo habitual es por lo tanto (como se muestra en la otra discusión que enlaza en su pregunta) para observar los efectos de regresor configuraciones de interés. Estos son más fáciles de interpretar y, a menudo (pero no siempre) es bastante similar (desde un punto de vista práctico) para diferentes funciones de enlace.

12voto

alexs77 Puntos 36

Es incorrecto que la regresión logística puede ser utilizado para modelar resultado binario de datos. El modelo de regresión logística es apropiada para cualquier de datos donde (1) el valor esperado de los resultados sigue una curva logística como una función de los predictores 2) la varianza de los resultados es el resultado que se espera veces uno menos el resultado esperado (o una cierta proporción de los mismos) 3) (consecuencia de las 2) los datos que oscila entre 0 y 1. Estas propiedades sin duda presionado por Bernoulli de datos. Pero uno debe asumir algunos exploratorio estadísticos y gráficos inmediatamente antes de desacreditar el modelo logístico como viable (y fáciles de implementar/explicar) los medios para responder a una pregunta científica.

Un modelo de regresión logística es un caso especial del modelo lineal generalizado (GLM), que significa que la constante estimaciones de los parámetros y de la inferencia son dados por el modelo. Los modelos logísticos son usados para modelar las proporciones, las variables ordinales, las tasas, los resultados de los exámenes, grados, y toda clase de no-binario resultados en varios lugares en la literatura.

Lo siento que esta respuesta no dirija su pregunta más tarde hacia abajo, pero indicando el razonamiento anterior se trae a colación una idea errónea de que la pena abordar.

Muchos de los usuarios de R han sugerido que la "advertencia" que proviene de la colocación de una respuesta continua con los modelos logísticos debería ser suprimida. "En medio de la carretera" el camino es cambiar family=binomial a family=quasibinomial. Un ejemplo de la simulación de estos datos, el ajuste de un modelo y la obtención de la correcta inferencia se muestra aquí:

set.seed(123)
## logistic non-binary response
x <- rep(c(-2, 0, 2), each=50)
n <- length(x)
b0 <- 0
b1 <- 0.3
yhat <- plogis(b0 + b1*x)

do.one <- function(){
  e <- rnorm(n, 0, yhat*(1-yhat))
  y <- yhat + e

  yfixed <- pmin(y, 1)
  yfixed <- pmax(yfixed, 0)

  est <- glm(yfixed ~ x, family=quasibinomial())
  ci <- confint.default(est, level = 0.9)
  cov0 <- b0 > ci[1,1] & b0 < ci[1,2]
  cov1 <- b1 > ci[2,1] & b1 < ci[2,2]
  c(cov0, cov1)
}

reg <- replicate(10000, do.one())
rowMeans(reg)

Da exacta del 90% de cobertura de la Cei

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X