32 votos

¿Es la regresión logística un caso específico de red neuronal?

Acabé en un debate sobre regresión logística y redes neuronales (NNs).

¿Es incorrecto decir que la regresión logística es un caso específico de red neuronal?

He visto muchas explicaciones en las que la regresión logística se muestra como una NN, como la siguiente:

Enter image description here

Desde Tess Fernández .

O así:

Enter image description here

Para mí no hay diferencias, al menos en la superficie. Hay una combinación lineal de la entrada, una función no lineal fija (sigmoide) y una clasificación basada en las probabilidades de salida, que es exactamente una red neuronal simple con una sola capa con un solo nodo (al menos en el problema binario) y que utiliza la función sigmoide como función de activación no lineal.

Pero alguien me dijo que no es exactamente así, porque los supuestos de este modelo son completamente diferentes a los de una red neuronal.

¿Cuáles son estos supuestos? ¿Y por qué debe considerarse que la regresión logística es diferente de una red neuronal?

Sé que las NN pueden manejar problemas más complejos (como los problemas no lineales separables), pero esto me desconcierta un poco.

52voto

user777 Puntos 10934

Tienes que ser muy específico sobre lo que quieres decir. Podemos demostrar matemáticamente que una determinada arquitectura de red neuronal entrenada con una determinada pérdida coincide exactamente con la regresión logística en los parámetros óptimos. Otras redes neuronales no lo harán.

Una regresión logística binaria hace predicciones $\hat{y}$ utilizando esta ecuación: $$ \hat{y}=\sigma(X \beta + \beta_0) $$ donde $X$ es un $n \times p$ matriz de características (predictores, variables independientes) y vector $\beta$ es el vector de $p$ coeficientes y $\beta_0$ es el intercepto y $\sigma(z)=\frac{1}{\exp(-z)+1}$ . Convencionalmente, en una regresión logística, haríamos rodar el $\beta_0$ escalar en el vector $\beta$ y añadir una columna de 1s a $X$ pero lo he sacado de $\beta$ para la claridad de la exposición.

Una red neuronal sin capas ocultas y con una neurona de salida con activación sigmoidea realiza predicciones mediante la ecuación $$ \hat{y}=\sigma(X \beta + \beta_0) $$ con $\hat{y},\sigma,X, \beta, \beta_0$ como antes. Evidentemente, la ecuación es exactamente la misma. En el redes neuronales la literatura, $\beta_0$ suele llamarse "sesgo", aunque no tenga nada que ver con el concepto estadístico de sesgo . Por lo demás, la terminología es idéntica.

Una regresión logística tiene como función objetivo la verosimilitud de Bernoulli o, lo que es lo mismo, la función log-verosimilitud de Bernoulli. Esta función objetivo es maximizado : $$ \arg\max_{\beta,\beta_0} \sum_i \left[ y_i \log(\hat{y_i}) + (1-y_i)\log(1-\hat{y_i})\right] $$ donde $y \in \{0,1\}$ . Podemos motivar esta función objetivo a partir de un modelo de probabilidad Bernoulli en el que la probabilidad de éxito depende de $X$ .

Una red neuronal puede, en principio, utilizar cualquier función de pérdida que queramos. Podría utilizar la llamada función de "entropía cruzada" (aunque la "entropía cruzada" puede motivar cualquier número de funciones de pérdida; véase ¿Cómo construir una pérdida de entropía cruzada para objetivos de regresión generales? ), en cuyo caso el modelo minimiza esta función de pérdida: $$ \arg\min_{\beta,\beta_0} -\sum_i \left[ y_i \log(\hat{y_i}) + (1-y_i)\log(1-\hat{y_i})\right] $$

En ambos casos, estas funciones objetivo son estrictamente convexas (cóncavas) cuando se cumplen ciertas condiciones. La convexidad estricta implica que existe un único mínimo y que éste es global. Además, las funciones objetivo son idénticas, ya que minimizar una función estrictamente convexa $f$ equivale a maximizando $-f$ . Por lo tanto, estos dos modelos recuperan las mismas estimaciones de parámetros $\beta, \beta_0$ . Mientras el modelo alcance el óptimo único, no importa qué optimizador se utilice, porque sólo hay un óptimo para estos modelos específicos.

Sin embargo, no es necesario que una red neuronal optimice esta función de pérdida específica; por ejemplo, una triple pérdida para este mismo modelo probablemente recuperarían estimaciones diferentes $\beta,\beta_0$ . Y la pérdida de MSE/mínimos cuadrados no es convexa en este problema, por lo que la red neuronal también diferiría de la regresión logística (véase: ¿Qué ocurre aquí, cuando utilizo la pérdida al cuadrado en la configuración de la regresión logística? ).

17voto

En cuanto a la arquitectura, sí, es un caso especial de red neuronal. Un modelo de regresión logística puede construirse mediante bibliotecas de redes neuronales. Al final, ambos tienen neuronas que tienen los mismos cálculos si se elige la misma activación y pérdida. Esto la convierte en una NN especial, pero como la regresión logística es el modelo más simple, es posible entrenarla utilizando métodos de segundo orden, por ejemplo newton . Los métodos de segundo orden utilizan la matriz hessiana, además de los gradientes. Pero este cálculo no es eficiente para las NN más grandes y las bibliotecas prefieren utilizar alternativas de descenso de gradiente o métodos de cuasi-newton, que son completamente de primer orden o métodos aproximados de segundo orden. Así pues, la ligera diferencia radica en la posible optimizadores Aunque esto no significa que se obtengan soluciones diferentes debido a las propiedades de convexidad del problema (al menos numéricamente).

8voto

joojaa Puntos 108

Si tiene una función de activación logística en la capa de salida et se intenta maximizar la probabilidad logarítmica de las observaciones que pertenecen a sus clases correspondientes (por ejemplo, mediante su negativo como función de coste), entonces Sí, se puede decir que cada neurona de la capa de salida es una implementación de un modelo logístico sobre sus entradas (que pueden ser salidas de las neuronas de las capas ocultas).

En el caso más sencillo, cuando se tiene una "red" de una sola neurona con función de activación logística, y suponiendo que se maximiza la log-verosimilitud, entonces se está realizando una regresión logística.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X