15 votos

Es el logit de la función siempre es la mejor para los modelos de regresión de datos binarios?

He estado pensando acerca de este problema. La habitual función logística para el modelado de datos binarios es: $$ \log\left(\frac{p}{1-p}\right)=\beta_0+\beta_1X_1+\beta_2X_2+\ldots $$ Sin embargo, es el logit de la función, la cual es una curva con forma de S, siempre lo mejor para el modelado de los datos? Tal vez usted tiene razones para creer que los datos no siguen la normal de la curva con forma de S, pero de un tipo diferente de la curva con el dominio $(0,1)$.

¿Hay alguna investigación en este? Tal vez usted puede modelar como una función probit o algo similar, pero lo que si es algo completamente distinto? Ello podría conducir a una mejor estimación de los efectos? Sólo un pensamiento que he tenido, y me pregunto si hay alguna investigación en este.

15voto

Bou Puntos 1859

La gente usa todo tipo de funciones para mantener sus datos entre 0 y 1. El log-odds se caen, naturalmente, de las matemáticas cuando se deriva el modelo (es el llamado "canónica de la función de enlace"), pero está absolutamente libre de experimentar con otras alternativas.

Como Macro que se alude en su comentario sobre tu pregunta, una opción común es un modelo probit, que utiliza la función cuantil de una Gaussiana en lugar de la función logística. También he oído cosas buenas sobre el uso de la función cuantil de una Estudiante de la $t$ distribución, aunque yo nunca lo he probado.

Todos ellos tienen la misma base en forma de S, pero difieren en la rapidez con la que saturan en cada extremo. Los modelos Probit enfoque de 0 y 1 muy rápidamente, lo que puede ser peligroso si las probabilidades tienden a ser menos extrema. $t$basado en modelos puede ir de cualquier manera, dependiendo del número de grados de libertad de la $t$ distribución. Andrew Gelman dice (en su mayoría relacionados contexto) que $t_7$ es aproximadamente igual que la curva logística. La reducción de los grados de libertad que le da más gordo colas y una gama más amplia de valores intermedios en su regresión. Cuando los grados de libertad de ir hasta el infinito, de regreso en el modelo probit.

Espero que esto ayude.

Editado para añadir: El debate @Macro vinculados a es realmente excelente. Me gustaría recomendar encarecidamente la lectura a través de él si usted está interesado en obtener más detalles.

11voto

Sean Hanley Puntos 2428

No veo ninguna razón, a priori, ¿por qué en el enlace correspondiente de la función para un determinado conjunto de datos tiene que ser el logit (aunque el universo parece ser bastante amables con nosotros, en general). No sé si estos son exactamente lo que usted está buscando, pero aquí hay algunos papeles que discutir más exóticos funciones de enlace:

Divulgación: no conozco a este material. He intentado escarceos con el Cauchit y Scobit hace un par de años, pero mi código mantenido estrellarse (probablemente porque no soy un gran programador), y no parecen relevantes para el proyecto en el que estaba trabajando, así que lo dejó caer.

La mayoría de estas cosas tiene que ver con diferentes cola comportamiento que el prototipo de los enlaces (es decir, la función de los turnos de la esquina' pronto y no asíntota a 0 y 1 muy rápido), o están sesgadas (es decir, como la cloglog, se acercan a uno de los límites más rápido que el otro). Usted también debe ser capaz de replicar estos comportamientos, creo, por el ajuste de una función spline de $X$, con una logística de enlace.

4voto

Awais Tariq Puntos 116

La mejor estrategia es un modelo de los datos a la luz de lo que está pasando (¡sorpresa!)

  • Los modelos Probit se originan con DL50 de estudios - que quiere la dosis de insecticida que mata a la mitad de los errores. La respuesta binaria es si el error vive o muere (a una dosis determinada). Los errores que son susceptibles a una dosis serán susceptibles a bajas dosis, que es donde la idea de modelado para el acumulativa Normal.
  • Si el binario observaciones vienen en grupos, se puede utilizar un beta-modelo binomial. Ben Bolker tiene una buena introducción en la documentación de su bbmle paquete (en R), que implementa esto en casos sencillos. Estos modelos permiten un mayor control sobre la variación de los datos de lo que se obtiene en una distribución binomial.
  • Multivariante de datos binarios -- el tipo que se enrolla en multi-dimensional de tablas de contingencia - puede ser analizada mediante un log-lineal de la modelo. La función de enlace es el registro, en lugar de las probabilidades de registro. Algunas personas se refieren a esto como la regresión de Poisson.

Probablemente no es la investigación sobre estos modelos, aunque ha habido un montón de investigación sobre cualquiera de estos modelos, y en las comparaciones entre ellos, y sobre las diferentes maneras de estimar. Lo que se encuentra en la literatura es que no hay mucha actividad por un tiempo, como a los investigadores a considerar una serie de opciones para una clase particular de problemas y, a continuación, un método surge como superior.

3voto

andynormancx Puntos 234

Logit es un modelo tal que las entradas son un producto de los expertos en cada una de las cuales es una distribución de Bernoulli. En otras palabras, si se considera la totalidad de los aportes a ser independientes de Bernoulli distribuciones con probabilidades $p_i$ cuya evidencia es combinado, usted encontrará que usted está agregando la función logística aplicada a cada una de las $p_i$s. (Otra manera de decir lo mismo es que la conversión de la expectativa de parametrización la parametrización natural de la distribución de Bernoulli es la función logística.)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X