¿Cuál es la diferencia entre la regresión logística y la regresión logit? Entiendo que son similares (o incluso lo mismo) pero ¿podría alguien explicar la(s) diferencia(s) entre estos dos? ¿Se trata de probabilidades?
Respuestas
¿Demasiados anuncios?El logit es una función de vínculo / una transformación de un parámetro. Es el logaritmo de las probabilidades. Si llamamos al parámetro $\pi$, se define de la siguiente manera:
$$ {\rm logit}(\pi) = \log\bigg(\frac{\pi}{1-\pi}\bigg) $$ La función logística es la inversa del logit. Si tenemos un valor, $x$, la función logística es:
$$ {\rm logístico}(x) = \frac{e^x}{1+e^x} $$ Así (usando notación de matriz donde $\boldsymbol X$ es una matriz de $N\times p$ y $\boldsymbol\beta$ es un vector de $p\times 1$), la regresión logit es:
$$ \log\bigg(\frac{\pi}{1-\pi}\bigg) = \boldsymbol{X\beta} $$ y la regresión logística es:
$$ \pi = \frac{e^\boldsymbol{X\beta}}{1+e^\boldsymbol{X\beta}} $$ Para obtener más información sobre estos temas, puede ser útil leer mi respuesta aquí: Diferencia entre modelos logit y probit.
Las probabilidades de un evento son la probabilidad del evento dividida por la probabilidad de que el evento no ocurra. Exponenciar el logit dará las probabilidades. De manera similar, puedes obtener las probabilidades tomando la salida de la función logística y dividiéndola por 1 menos la función logística. Es decir:
$$ {\rm probabilidades} = \exp({\rm logit}(\pi)) = \frac{{\rm logística}(x)}{1-{\rm logística}(x)} $$ Para obtener más información sobre probabilidades y probabilidades, y cómo la regresión logística está relacionada con ellas, puede ser útil leer mi respuesta aquí: Interpretación de predicciones simples hacia razones de probabilidades en regresión logística.
Esta respuesta aplica para scikit-learn en python.
Ambos logit de statsmodels y LogisticRegression de scikit-learn pueden ser utilizados para ajustar modelos de regresión logística. Sin embargo, hay algunas diferencias entre los dos métodos.
Logit de statsmodels proporciona una salida estadística más detallada, incluyendo valores p, intervalos de confianza y medidas de bondad de ajuste como la deviance y la prueba de razón de verosimilitud. También permite opciones de modelado más avanzadas, como especificar términos de desplazamiento, incorporar errores estándar robustos y modelar estructuras de datos jerárquicos.
Por otro lado, LogisticRegression de scikit-learn proporciona una interfaz más amigable para el usuario y es más adecuado para aplicaciones de aprendizaje automático a gran escala. Permite una fácil validación cruzada, regularización y selección de características, y en general es más rápido y escalable que logit de statsmodels.
En este caso, tanto logit como LogisticRegression podrían ser utilizados para ajustar el modelo de regresión logística con las dos variables indicadoras. La elección entre los dos métodos puede depender de las necesidades específicas del análisis, como el nivel deseado de inferencia estadística o los recursos computacionales disponibles.
1 votos
Lo mismo. En Stata, uno te da las razones de momios, y el otro te da el logaritmo de las razones de momios.
2 votos
Ver la respuesta de Stas K en stats.stackexchange.com/questions/27662/… Una respuesta corta es: lo mismo pero con énfasis diferentes en la presentación de datos.
4 votos
Como sucede con muchas cosas, depende de quién esté hablando. Desafortunadamente, diferentes personas utilizan términos de diferentes maneras. Por ejemplo, algunas personas dirían que son lo mismo, pero otras personas usarían "función logística" (y en ocasiones incluso 'regresión logística') para referirse a una función de regresión no lineal que es un múltiplo de la función de distribución logística, lo cual sería algo diferente a mirar lo que se llama un enlace-logit en un modelo lineal generalizado.