Hay muchas funciones "sigmoides", pero la que citas, la función logística, es la más común en aprendizaje automático y estadística. Se me ocurren dos razones para ello:
- Se ajusta bien al formalismo de los modelos lineales generalizados, y
- aparece naturalmente como la probabilidad de clase si las clases se distribuyen normalmente.
Es probable que la primera razón la aducen más a menudo los estadísticos y la segunda los aprendices de máquina.
1. Enfoque estadístico
Supongamos una variable aleatoria Y que puede tomar dos valores discretos, por ejemplo A y B ---Pueden considerarse "etiquetas de clase". Definir una variable y que es uno cuando Y=B y cero en caso contrario (es decir Y=A⇔y=0 ). Supongamos también que la probabilidad de un punto con un valor real (posiblemente vectorial) x pertenecer a la clase B depende de alguna manera de ese valor, es decir P(y)=p(x) con p(x) en función de x , p:R→[0,1] .
Con algunas acrobacias matemáticas, P(y) puede reescribirse para ajustarse a la notación general de la familia exponencial de distribuciones de probabilidad:
P(y)=h(y)exp(η(x)⋅T(y)−A(η(x)))
En función de la elección de h(y) , η(x) , T(y) y A(η(x)) puedes construir muchas distribuciones diferentes: Gaussiana, Poisson, Gamma, etc. Para nuestra distribución ("Bernoulli"), tenemos que establecer:
h(y)=1η(x)=lnp(x)1−p(x)T(y)=yA(η)=ln(1+exp(η(x)))
Por el momento, puede ignorar todo excepto la segunda línea, que define η(x) . Esta relación se denomina log-odds. Ahora, si expresamos p(x) en términos de η(x) obtenemos:
p(x)=11+e−η(x)
Generalmente, η(x) puede tener cualquier forma, pero es matemáticamente atractivo suponer que es una función lineal, o, en su notación, η(x)=θTx . De ahí el " modelo lineal generalizado ".
2. Enfoque de aprendizaje automático
Supongamos dos distribuciones de probabilidad ("clases"), A y B . Independientemente de sus distribuciones de probabilidad, de la fórmula bayesiana se deduce:
P(B|x)=P(x|B)P(B)P(x)=P(x|B)P(B)P(x|A)P(A)+P(x|B)P(B)=11+P(x|A)P(A)P(x|B)P(B)
Si x es continua, de modo que las clases pueden describirse mediante sus respectivas funciones de densidad de probabilidad (FDP), fA(x) y fB(x) la fracción P(x|A)/P(x|B) puede expresarse como:
P(x|A)P(x|B)=limΔx→0fA(x)ΔxfB(x)Δx=fA(x)fB(x)
Supongamos ahora que las dos clases se distribuyen normalmente, con varianzas iguales:
fA(x)=1√2πσexp(−(x−μA)22σ2), fB(x)=1√2πσexp(−(x−μB)22σ2)
Entonces la fracción fA(x)/fB(x) se puede escribir como:
fA(x)fB(x)=exp(−(x−μA)22σ2+(x−μB)22σ2)=exp(μ2B−μ2A2σ2+μA−μBσ2x)
y todo el término
fA(x)P(A)fB(x)P(B)=exp(lnP(A)P(B)+μ2B−μ2A2σ2+μA−μBσ2x)
Denota
θ0=μ2A−μ2B2σ2−lnP(A)P(B) and θ1=μB−μAσ2
conduce a la forma comúnmente utilizada en la regresión logística:
P(B|x)=11+e−(θ0+θ1x)
o, en notación vectorial y suponiendo x con el elemento cero fijado en 1:
P(B|x)=11+e−θTx
Sea cual sea el enfoque que se adopte, se están haciendo suposiciones sobre los datos. En el enfoque estadístico, se supone que las probabilidades logarítmicas dependen linealmente de x . En el enfoque de aprendizaje automático, se suponen distribuciones normales de las clases (la hipótesis de las probabilidades logarítmicas se deriva de la hipótesis de normalidad, pero no al revés). En la práctica, los datos con distribución normal son bastante comunes, por lo que esta suposición es probable, pero no se garantiza que sea cierta. Si no es así, las probabilidades modelizadas se desviarán de las probabilidades reales.