25 votos

¿Por qué la regresión logística es especialmente propensa al sobreajuste en dimensiones altas?

¿Por qué "la naturaleza asintótica de regresión logística" lo hacen especialmente propenso a sobreajuste en grandes dimensiones ? ( fuente ):

enter image description here

Comprendo LogLoss ( entropía cruzada ) crece rápidamente a medida que $y$ (probabilidad real) se aproxima a $1-y'$ (probabilidad prevista):

pero por qué ¿implica eso que "la naturaleza asintótica de regresión logística seguiría llevando la pérdida hacia 0 en grandes dimensiones sin regularización" ?

En mi opinión, sólo porque la pérdida puede crecer rápidamente (si nos ponemos muy cerrar a la respuesta incorrecta y totalmente opuesta), no significa que por ello intentaría interpolar completamente los datos. En todo caso, el optimizador evite entrando en la parte asintótica (parte de crecimiento rápido) de la pérdida de la forma más agresiva posible.

25voto

Shane Oliver Puntos 126

Las respuestas existentes no son erróneas, pero creo que la explicación podría ser un poco más intuitiva. Aquí hay tres ideas clave.

1. Predicciones asintóticas

En la regresión logística utilizamos un modelo lineal para predecir $\mu$ , las probabilidades logarítmicas de que $y=1$

$$ \mu = \beta X $$

A continuación, utilizamos la función logística/logarítmica inversa para convertir esto en una probabilidad

$$ P(y=1) = \frac{1}{1 + e^{-\mu}} $$

enter image description here

Es importante destacar que esta función nunca alcanza valores de $0$ o $1$ . En su lugar, $y$ se acerca cada vez más a $0$ como $\mu$ se vuelve más negativa, y más cerca de $1$ más positiva.

enter image description here

2. Separación perfecta

A veces, se dan situaciones en las que el modelo quiere predecir $y=1$ o $y=0$ . Esto ocurre cuando es posible trazar una línea recta a través de sus datos de forma que cada $y=1$ a un lado de la línea, y $0$ por el otro. Esto se llama separación perfecta .

Separación perfecta en 1D

En 2D

enter image description here

Cuando esto ocurre, el modelo intenta predecir lo más cercano a $0$ y $1$ como sea posible, prediciendo valores de $\mu$ que sean lo más bajos y altos posible. Para ello, debe establecer los pesos de regresión, $\beta$ lo más grande posible.

La regularización es una forma de contrarrestarlo: el modelo no puede establecer $\beta$ infinitamente grande, así que $\mu$ no puede ser infinitamente alto o bajo, y la predicción $y$ no puede acercarse tanto a $0$ o $1$ .

3. La separación perfecta es más probable con más dimensiones

En consecuencia, la regularización adquiere mayor importancia cuando se dispone de muchos predictores.

Para ilustrarlo, he aquí de nuevo los datos trazados anteriormente, pero sin los segundos predictores. Vemos que ya no es posible trazar una línea recta que separe perfectamente $y=0$ de $y=1$ .

enter image description here


Código

# https://stats.stackexchange.com/questions/469799/why-is-logistic-regression-particularly-prone-to-overfitting

library(tidyverse)
theme_set(theme_classic(base_size = 20))

# Asymptotes
mu = seq(-10, 10, .1)
p = 1 / (1 + exp(-mu))
g = ggplot(data.frame(mu, p), aes(mu, p)) + 
  geom_path() +
  geom_hline(yintercept=c(0, 1), linetype='dotted') +
  labs(x=expression(mu), y='P(y=1)')
g

g + coord_cartesian(xlim=c(-10, -9), ylim=c(0, .001))

# Perfect separation
x = c(1, 2, 3, 4, 5, 6)
y = c(0, 0, 0, 1, 1, 1)
df = data.frame(x, y)
ggplot(df, aes(x, y)) +
  geom_hline(yintercept=c(0, 1), linetype='dotted') +
  geom_smooth(method='glm', 
              method.args=list(family=binomial), se=F) +
  geom_point(size=5) +
  geom_vline(xintercept=3.5, color='red', size=2, linetype='dashed')

## In 2D
x1 = c(rnorm(100, -2, 1), rnorm(100, 2, 1))
x2 = c(rnorm(100, -2, 1), rnorm(100, 2, 1))
y = ifelse( x1 + x2 > 0, 1, 0)
df = data.frame(x1, x2, y)
ggplot(df, aes(x1, x2, color=factor(y))) +
  geom_point() +
  geom_abline(intercept=1, slope=-1,
              color='red', linetype='dashed') +
  scale_color_manual(values=c('blue', 'black')) +
  coord_equal(xlim=c(-5, 5), ylim=c(-5, 5)) +
  labs(color='y')

## Same data, but ignoring x2
ggplot(df, aes(x1, y)) +
  geom_hline(yintercept=c(0, 1), linetype='dotted') +
  geom_smooth(method='glm', 
              method.args=list(family=binomial), se=T) +
  geom_point()

6voto

spdrnl Puntos 959

El carácter asintótico se refiere a la propia curva logística. El optimizador, si no está regularizado, ampliará los pesos de la regresión logística para poner $wx$ lo más a la izquierda o a la derecha posible por muestra para reducir al máximo la pérdida.

Supongamos una característica que proporciona una separación perfecta, se puede imaginar $wx$ cada vez más grande en cada iteración. La optimización fallará en este caso, a menos que la solución esté regularizada.

$$\frac{1}{1 + e^{wx}}$$

Un modelo de alta dimensión crea un gran espacio de hipótesis para el posible conjunto de parámetros. El optimizador lo aprovechará eligiendo la solución con las ponderaciones más altas. Los pesos más altos reducirán la pérdida, que es la tarea del optimizador, empinarán la curva logística y darán una probabilidad condicional más alta de los datos. El modelo tiene un exceso de confianza, una paráfrasis de sobreajuste en este contexto.

Si hay varias configuraciones de parámetros que tienen la misma medida binaria de rendimiento, el optimizador elegirá siempre la configuración con la pérdida más baja. Debido a la naturaleza asintótica de la curva logística, la función de pérdida puede reducirse más allá de la información proporcionada por las etiquetas binarias.

Desde un punto de vista más pragmático, la regularización, que hace que los coeficientes sean más pequeños, puede ayudar a reducir el sobreajuste. La teoría bayesiana ofrece una explicación más formal de la relación entre las ponderaciones sin restricciones, la regularización y el sobreajuste.

6voto

user164061 Puntos 281

Esto ha no que ver con esa función de pérdida logarítmica específica.

Esa función de pérdida está relacionada con regresión binomial/binaria y no específicamente a la regresión logística. Con otras funciones de pérdida se obtendría el mismo "problema".

Entonces, ¿cuál es el caso?

  • La regresión logística es una especial caso de esta regresión binomial/binaria y es la regresión logística función de enlace que tiene la naturaleza asintótica.
  • Además, el "sobreajuste" es problemático sobre todo en casos de separación perfecta.

Separación y ajuste perfectos con curvas sigmoideas

Si las muestras están perfectamente separadas, entonces la forma sigmoidea de la logística puede hacer que el ajuste sea "perfecto" (cero residuos y sobreajuste) aumentando los coeficientes (hasta el infinito).

Por ejemplo, en la imagen de abajo el modelo verdadero es:

$$p(x) = \frac{1}{1 + e^{-2x}}$$

Pero los puntos de datos, que no son iguales ni cercanos a $p(x)$ pero tienen valores 0 ó 1, resultan ser clases perfectamente separadas (por un lado son todas 0 y por otro lado son todas 1), y como resultado los valores ajustados $\hat{p}(x)$ también se ajustan igual a 0 y 1 (lo que la función sigmoidea permite dejando que $b \to \infty$ ) $$\hat{p}(x) = \frac{1}{1 + e^{-bx}}$$

example of perfect separation and effect on sigmoid curve fit


Un ejemplo análogo, con una tendencia similar al sobreajuste, sería

$y_i = sin(b \cdot x_i) + \epsilon_i$

example with sine wave

Así que esto no depende tanto del tipo de función de pérdida (o de la distribución del error) como de que la predicción del modelo pueda aproximarse a un ajuste perfecto.

En el ejemplo con esta onda senoidal se obtiene el sobreajuste cuando no se limita la frecuencia, en el caso con regresión logística se obtiene el sobreajuste cuando se tiene una separación perfecta.

¿Por qué funciona la regularización?

Puedes resolverlo con regularización, pero deberías tener alguna buena forma de saber/estimar en qué medida deseas regularizar.

En el caso de alta dimensionalidad "funciona" porque el sobreajuste (con características que se vinculan sólo a uno o unos pocos puntos/individuos) requiere muchos parámetros sean de alto valor. Esto aumentará rápidamente la parte de regularización de la función de coste.

La regularización hará que su ajuste tienda a "utilizar menos características". Y eso se corresponde con su conocimiento/creencia previa de que su modelo debe basarse en sólo unas pocas características, en lugar de una gran colección de muchos pequeños bits (que fácilmente podría ser ruido).

Ejemplo Por ejemplo, supongamos que queremos predecir la probabilidad de llegar a ser presidente de EE.UU., entonces nos iría bien con algunos parámetros generalizadores como la educación, los padres, el dinero/riqueza, el sexo o la edad. Sin embargo, su modelo de clasificación ajustado, si no está regularizado, podría dar peso a las muchas características únicas de cada observación/presidente (y potencialmente alcanzar una puntuación/separación perfecta en el conjunto de entrenamiento, pero no es generalizador) y en lugar de dar peso a un único parámetro como la "edad" podría utilizar en su lugar cosas como "fuma sigars y le gusta bañarse desnudo" (y muchas de ellas para dar cuenta de cada presidente en el conjunto observado).

Este ajuste con demasiados parámetros diferentes se reduce mediante la regularización, porque se puede obtener una mejor pérdida (regularizada) cuando hay menos parámetros con valores altos (lo que significa que se hace que el modelo prefiera los parámetros más generales).

Esta regularización es en realidad una "buena cosa" que hacer, incluso sin el caso de separación perfecta.

5voto

dan90266 Puntos 609

Me parece que la respuesta es mucho más sencilla de lo que se ha descrito tan elegantemente con las respuestas de otros. El sobreajuste aumenta cuando disminuye el tamaño de la muestra. El sobreajuste es una función del tamaño efectivo de la muestra. El sobreajuste es mínimo para un tamaño de muestra aparente dado cuando Y es continuo, es decir, tiene el mayor contenido de información. Una Y binaria con probabilidades de celda de 0,5 0,5 tiene menos información que una variable continua y da lugar a más sobreajuste debido al menor tamaño efectivo de la muestra. Y con probabilidades 0,01 0,99 da lugar a un sobreajuste peor debido a un tamaño de muestra efectivo aún menor. El tamaño efectivo de la muestra es proporcional a min(a, b) donde a y b son las dos frecuencias de celdas en los datos de la muestra. Para Y continua, los tamaños de muestra efectivo y real son iguales. Este tema se trata en https://hbiostat.org/rms

4voto

Stéphane Puntos 682

Regresión logística es un problema de optimización convexo (la función de verosimilitud es cóncava), y se sabe que no tienen una solución finita cuando pueda separar completamente los datos por lo que la función de pérdida sólo puede alcanzar su valor mínimo asintomáticamente a medida que los pesos tienden a ± infinito. Esto tiene el efecto de estrechar los límites de decisión alrededor de cada punto de datos cuando los datos son separables, asintóticamente sobreajustados en el conjunto de entrenamiento.

Desde un punto de vista más práctico, la regresión logística se entrena a menudo con el descenso de gradiente. Se trata de un poco profundo con una pérdida suave distinta de cero en todas partes, por lo que el gradiente no desaparece fácilmente de forma numérica. Dado que el optimizador no puede alcanzar una solución óptima mediante pasos de gradiente con tamaños de paso finitos, puede iterar "para siempre", empujando los pesos a valores cada vez más extremos, en un intento de alcanzar una pérdida asintóticamente nula.

En altas dimensiones este problema se agrava porque el modelo tendrá aún más formas de separar los datos, por lo que es más probable que el descenso por gradiente sobreajuste asintóticamente, es decir. si lo dejas correr mucho tiempo . Tenga en cuenta que parada anticipada es un forma de regularización en sí mismo, y que puede relativamente mucho tiempo para estos modelos con descenso de gradiente de vainilla para sobreajustar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X