28 votos

Intuición detrás de la regresión logística

Recientemente comencé a estudiar aprendizaje automático, sin embargo no logré entender la intuición detrás de regresión logística.

Lo que entiendo sobre regresión logística es lo siguiente.

  1. Como base para la hipótesis usamos función sigmoide. Entiendo por qué es una buena elección, sin embargo no entiendo por qué es la única elección. La hipótesis representa la probabilidad de que la salida apropiada sea $1$, por lo tanto el dominio de nuestra función debe ser $[0,1]$, esta es la única propiedad de la función sigmoide que encuentro útil y apropiada aquí, sin embargo muchas funciones satisfacen esta propiedad. Además, la función sigmoide tiene una derivada en esta forma $f(x)(1-f(x))$, pero no veo la utilidad de esta forma especial en la regresión logística.

    Pregunta: ¿qué tiene de especial la función sigmoide y por qué no podemos usar cualquier otra función con dominio $[0,1]$?

  2. La función de coste consta de dos parámetros ${\rm Cost}(h_{\theta}(x),y)=-\log(h_{\theta}(x))$ si $y=1, {\rm Cost}(h_{\theta}(x),y)=-\log(1-h_{\theta}(x))$ si $y=0$. De la misma manera que arriba, entiendo por qué es correcto, sin embargo ¿por qué es la única forma? Por ejemplo, ¿por qué no podría $|h_{\theta(x)}-y|$ ser una buena elección para la función de coste?

    Pregunta: ¿qué tiene de especial la forma anterior de la función de coste; por qué no podemos usar otra forma?

Agradecería si pudieras compartir tu entendimiento de la regresión logística.

5 votos

La función logística no es la única función que se puede utilizar como una función de enlace para modelos de regresión cuando la respuesta se distribuye como una binomial. En este sentido, puede ayudarte leer mi respuesta aquí: difference-between-logit-and-probit-models.

4 votos

Mi respuesta aquí: es la función logit siempre la mejor para modelar datos binarios con regresión, también puede ser útil para pensar en diferentes posibilidades.

1 votos

@AdamO proporciona un excelente resumen a continuación. Si deseas obtener información más detallada sobre lo que significa que el logit es la 'función de enlace canónica', es posible que desees leer la respuesta de Momo aquí: diferencia-entre-funcion-de-enlace-y-funcion-de-enlace-canonica‌​-para-glm.

11voto

alexs77 Puntos 36

El modelo de regresión logística es de máxima probabilidad utilizando el parámetro natural (la relación de chances en logaritmo) para contrastar los cambios relativos en el riesgo del resultado por unidad de diferencia en el predictor. Esto asume, por supuesto, un modelo de probabilidad binomial para el resultado. Eso significa que las propiedades de consistencia y robustez de la regresión logística se extienden directamente desde la máxima probabilidad: robusto a datos faltantes al azar, consistencia de la raíz-n, y existencia y unicidad de soluciones para las ecuaciones de estimación. Esto asume que las soluciones no están en los límites del espacio de parámetros (donde las relaciones de chances en logaritmo son $\pm \infty$). Debido a que la regresión logística es de máxima probabilidad, la función de pérdida está relacionada con la probabilidad, ya que son problemas de optimización equivalentes.

Con quasi-máxima probabilidad o ecuaciones de estimación (inferencia semiparamétrica), las propiedades de existencia y unicidad aún se mantienen pero la suposición de que el modelo medio es válido no es relevante y la inferencia y errores estándar son consistentes independientemente de la mala especificación del modelo. Por lo tanto, en este caso, no se trata de si la función sigmoide es la correcta, sino de una que nos dé una tendencia en la que podemos creer y que esté parametrizada por parámetros que tengan una interpretación extensible.

La sigmoide, sin embargo, no es la única función de modelado binario de este tipo. La función probit más comúnmente contrastada tiene propiedades similares. No estima las relaciones de chances en logaritmo, pero funcionalmente se ven muy similares y tienden a dar aproximaciones muy similares a la exactamente misma cosa. Uno no necesita usar propiedades de limitación en la función del modelo medio. Simplemente usando una curva logarítmica con una función de varianza binomial da como resultado una regresión del riesgo relativo, un link de identidad con varianza binomial da como resultado modelos de riesgo aditivos. Todo esto es determinado por el usuario. La popularidad de la regresión logística es, lamentablemente, la razón por la que se usa tan comúnmente. Sin embargo, tengo mis razones (las que mencioné) por las que creo que está bien justificado su uso en la mayoría de las circunstancias de modelado de resultados binarios.

En el mundo de la inferencia, para resultados poco frecuentes, la relación de chances en logaritmo se puede interpretar aproximadamente como un "riesgo relativo", es decir, un "cambio relativo porcentual en el riesgo del resultado al comparar X+1 con X". Esto no siempre es el caso y, en general, una relación de chances en logaritmo no puede ni debe interpretarse de esa manera. Sin embargo, que los parámetros tengan interpretación y se puedan comunicar fácilmente a otros investigadores es un punto importante, algo que lamentablemente falta en los materiales didácticos de los machine learnists.

El modelo de regresión logística también proporciona los fundamentos conceptuales para enfoques más sofisticados, como el modelado jerárquico, así como enfoques de modelado mixto y de máxima probabilidad condicional que son consistentes y robustos frente al creciente número exponencial de parámetros de molestia. Los GLMMs y la regresión logística condicional son conceptos muy importantes en estadísticas de alta dimensionalidad.

1 votos

¡Muchas gracias por tu respuesta! Parece que tengo una gran falta de conocimientos.

0 votos

Creo que el libro Modelos Lineales Generalizados de McCullough y Nelder sería un gran recurso de referencia para obtener una perspectiva más estadística.

0 votos

En general, ¿qué libro de texto aconsejas en Aprendizaje Automático con contenido descriptivo muy detallado?

6voto

Bill Puntos 3605

Una forma de pensar en la regresión logística es como un modelo de respuesta de umbral. En estos modelos, tienes una variable dependiente binaria, $Y$, que es influenciada por los valores de un vector de variables independientes $X$. La variable dependiente $Y$ solo puede tomar los valores 0 y 1, por lo que no puedes modelar la dependencia de $Y$ en $X$ con una ecuación de regresión lineal típica como $Y_i=X_i\beta+\epsilon_i. Pero realmente, realmente nos gustan las ecuaciones lineales. O, al menos, a mí sí.

Para modelar esta situación, introducimos una variable latente no observable $Y^*$, y decimos que $Y$ pasa de ser igual a 0 a ser igual a 1 cuando $Y^*$ cruza un umbral: \begin{align} Y^*_i &= X_i \beta + \epsilon_i\\ &\\ Y_i &= 0 \;\textrm{si}\; Y_i^*<0\\ Y_i &= 1 \; \textrm{si} \; Y_i^*>0 \end{align> Como lo he escrito, el umbral está en 0. Sin embargo, esto es una ilusión. Generalmente, el modelo incluye una constante (es decir, una de las columnas de $X$ es una columna de 1s). Esto permite que el umbral sea cualquier cosa.

Para motivar este modelo, piensa en matar insectos con un pesticida neurotoxina. $Y^*$ es la cantidad de células nerviosas muertas, y $X$ incluye la dosis de pesticida entregada a algún insecto. $Y$ es entonces 1 si el insecto muere y 0 si vive. Es decir, si se matan suficientes células nerviosas (y $Y^*$ cruza el umbral), entonces el insecto muere. Por cierto, esto no es realmente cómo funcionan los pesticidas neurotóxicos, pero es divertido fingir.

Entonces, obtienes una ecuación de regresión lineal que no puedes ver y un resultado binario que sí puedes ver. Los parámetros, $\beta$, suelen estimarse mediante máxima verosimilitud. Si $\epsilon$ está distribuido con función de distribución simétrica $F$, entonces $P\{Y_i=1\}=F(X_i\beta). Tal como dices, puedes usar cualquier función de distribución simétrica que desees.

De hecho, puedes usar una función de distribución asimétrica si así lo prefieres, solo hace que el álgebra sea un poco más difícil, ya que $P\{Y_i=1\}=1-F(-X_i\beta)$.

Ahora bien, la función de distribución que elijas para $\epsilon$ afecta tus resultados de estimación. Las dos opciones más comunes para $F$ son normal (produciendo el modelo probit) y logística (produciendo el modelo logit). Estas dos distribuciones son tan similares que rara vez hay diferencias importantes en los resultados entre ellas. Dado que el logit tiene una forma cerrada muy conveniente tanto para las funciones de distribución acumulativa como para las de densidad, generalmente es más fácil usarlo que el probit.

Nuevamente, tal como dices, podrías elegir cualquier función de distribución para $F$ y cuál elijas afectará tus resultados.

0 votos

Lo que describiste es exactamente la motivación para el modelo Probit, no la regresión logística.

6 votos

@AdamO, si los $\epsilon_i$ tienen una distribución logística, entonces esto describe la regresión logística.

0 votos

Esa parece una suposición muy sensible y una que sería difícil de probar. Creo que la regresión logística puede estar justificada cuando esas distribuciones de error no se cumplen.

1voto

David Puntos 41

La regresión logística no fue desarrollada originalmente por la comunidad de aprendizaje automático, sino por la comunidad de estadísticas. Hay muchas visiones probabilísticas detrás de ella. Puede buscar los siguientes términos para obtener más información: odds, log odds, modelo lineal generalizado, función de enlace binomial.

Pero para el aprendizaje automático, el objetivo es ligeramente diferente ya que solo queremos obtener una mayor precisión (minimizar la función de pérdida), pero no hablamos sobre estas suposiciones y cómo se genera los datos.

Está haciendo muy buenas preguntas. Por lo tanto, para el aprendizaje automático, es común usar otras 'funciones sigmoideas' y funciones de pérdida para hacer la clasificación.

Consulte esta pregunta para más detalles

¿Cuáles son los impactos de elegir diferentes funciones de pérdida en la clasificación para aproximarse a la pérdida 0-1?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X