Processing math: 100%

4 votos

Probabilidades en regresión logística

Estoy aprendiendo sobre regresión logística en el curso de aprendizaje automático de Andrew Ng. En el curso se dice que la hipótesis es la probabilidad de la salida y=1 para una entrada dada x . Es decir, hθ(x)=P(y=1|x;θ).

Se supone que hθ(x)=11+eθTx es decir, la función sigmoidea.

Lo que me confunde es cómo lo sabemos. ¿Se trata de una definición?

4voto

Alex Puntos 128

Dado que las probabilidades están acotadas entre 0 y 1, necesitamos alguna función que pueda tomar la entrada no acotada θTx y mapearlo al intervalo unitario. Matemáticamente, necesitamos

f:R[0,1]

La función sigmoidea lo consigue, pero no es la única. Si hubiéramos utilizado la FDA de la normal, estaríamos haciendo algo llamado regresión Probit (estrechamente relacionada con la regresión logística).

En resumen, hemos construido la regresión logística (es decir, la hemos definido) de forma que P(y=1)=hθ(x) .

3voto

joojaa Puntos 108

Hay muchas funciones "sigmoides", pero la que citas, la función logística, es la más común en aprendizaje automático y estadística. Se me ocurren dos razones para ello:

  1. Se ajusta bien al formalismo de los modelos lineales generalizados, y
  2. aparece naturalmente como la probabilidad de clase si las clases se distribuyen normalmente.

Es probable que la primera razón la aducen más a menudo los estadísticos y la segunda los aprendices de máquina.

1. Enfoque estadístico

Supongamos una variable aleatoria Y que puede tomar dos valores discretos, por ejemplo A y B ---Pueden considerarse "etiquetas de clase". Definir una variable y que es uno cuando Y=B y cero en caso contrario (es decir Y=Ay=0 ). Supongamos también que la probabilidad de un punto con un valor real (posiblemente vectorial) x pertenecer a la clase B depende de alguna manera de ese valor, es decir P(y)=p(x) con p(x) en función de x , p:R[0,1] .

Con algunas acrobacias matemáticas, P(y) puede reescribirse para ajustarse a la notación general de la familia exponencial de distribuciones de probabilidad:

P(y)=h(y)exp(η(x)T(y)A(η(x)))

En función de la elección de h(y) , η(x) , T(y) y A(η(x)) puedes construir muchas distribuciones diferentes: Gaussiana, Poisson, Gamma, etc. Para nuestra distribución ("Bernoulli"), tenemos que establecer:

h(y)=1η(x)=lnp(x)1p(x)T(y)=yA(η)=ln(1+exp(η(x)))

Por el momento, puede ignorar todo excepto la segunda línea, que define η(x) . Esta relación se denomina log-odds. Ahora, si expresamos p(x) en términos de η(x) obtenemos:

p(x)=11+eη(x)

Generalmente, η(x) puede tener cualquier forma, pero es matemáticamente atractivo suponer que es una función lineal, o, en su notación, η(x)=θTx . De ahí el " modelo lineal generalizado ".

2. Enfoque de aprendizaje automático

Supongamos dos distribuciones de probabilidad ("clases"), A y B . Independientemente de sus distribuciones de probabilidad, de la fórmula bayesiana se deduce:

P(B|x)=P(x|B)P(B)P(x)=P(x|B)P(B)P(x|A)P(A)+P(x|B)P(B)=11+P(x|A)P(A)P(x|B)P(B)

Si x es continua, de modo que las clases pueden describirse mediante sus respectivas funciones de densidad de probabilidad (FDP), fA(x) y fB(x) la fracción P(x|A)/P(x|B) puede expresarse como:

P(x|A)P(x|B)=limΔx0fA(x)ΔxfB(x)Δx=fA(x)fB(x)

Supongamos ahora que las dos clases se distribuyen normalmente, con varianzas iguales:

fA(x)=12πσexp((xμA)22σ2),         fB(x)=12πσexp((xμB)22σ2)

Entonces la fracción fA(x)/fB(x) se puede escribir como:

fA(x)fB(x)=exp((xμA)22σ2+(xμB)22σ2)=exp(μ2Bμ2A2σ2+μAμBσ2x)

y todo el término

fA(x)P(A)fB(x)P(B)=exp(lnP(A)P(B)+μ2Bμ2A2σ2+μAμBσ2x)

Denota

θ0=μ2Aμ2B2σ2lnP(A)P(B)        and        θ1=μBμAσ2

conduce a la forma comúnmente utilizada en la regresión logística:

P(B|x)=11+e(θ0+θ1x)

o, en notación vectorial y suponiendo x con el elemento cero fijado en 1:

P(B|x)=11+eθTx

Sea cual sea el enfoque que se adopte, se están haciendo suposiciones sobre los datos. En el enfoque estadístico, se supone que las probabilidades logarítmicas dependen linealmente de x . En el enfoque de aprendizaje automático, se suponen distribuciones normales de las clases (la hipótesis de las probabilidades logarítmicas se deriva de la hipótesis de normalidad, pero no al revés). En la práctica, los datos con distribución normal son bastante comunes, por lo que esta suposición es probable, pero no se garantiza que sea cierta. Si no es así, las probabilidades modelizadas se desviarán de las probabilidades reales.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X