72 votos

¿Por qué la regresión logística es un clasificador lineal?

Dado que estamos utilizando la función logística para transformar una combinación lineal de la entrada en una salida no lineal, ¿cómo puede considerarse la regresión logística como un clasificador lineal?

La regresión lineal es como una red neuronal sin la capa oculta, así que ¿por qué las redes neuronales se consideran clasificadores no lineales y la regresión logística es lineal?

61voto

Stefan Wager Puntos 1263

La regresión logística es lineal en el sentido de que las predicciones pueden escribirse como $$ \hat{p} = \frac{1}{1 + e^{-\hat{\mu}}}, \text{ where } \hat{\mu} = \hat{\theta} \cdot x. $$ Así, la predicción puede escribirse en términos de $\hat{\mu}$ que es una función lineal de $x$ . (Más precisamente, el logaritmo de probabilidades previsto es una función lineal de $x$ .)

Por el contrario, no hay forma de resumir la salida de una red neuronal en términos de una función lineal de $x$ Por eso las redes neuronales se llaman no lineales.

Además, para la regresión logística, el límite de decisión $\{x:\hat{p} = 0.5\}$ es lineal: es la solución de $\hat{\theta} \cdot x = 0$ . El límite de decisión de una red neuronal no es, en general, lineal.

30voto

Phil Bogle Puntos 351

Como señala Stefan Wagner, el límite de decisión de un clasificador logístico es lineal. (El clasificador necesita que las entradas sean linealmente separables). Quería ampliar las matemáticas para esto en caso de que no sea obvio.

El límite de decisión es el conjunto de x tal que $${1 \over {1 + e^{-{\theta \cdot x}}}} = 0.5$$

Un poco de álgebra muestra que esto es equivalente a $${1 = e^{-{\theta \cdot x}}}$$

y, tomando el logaritmo natural de ambos lados,

$$0 = -\theta \cdot x = -\sum\limits_{i=0}^{n} \theta_i x_i$$

por lo que el límite de decisión es lineal.

La razón por la que el límite de decisión de una red neuronal no es lineal es porque hay dos capas de funciones sigmoides en la red neuronal: una en cada uno de los nodos de salida más una función sigmoide adicional para combinar y umbralizar los resultados de cada nodo de salida.

5voto

jpmuc Puntos 4817

Tenemos dos clases, $C_{0}$ y $C_{1}$ , entonces podemos expresar la probabilidad condicional como, $$ P(C_{0}|x) = \frac{P(x|C_{0})P(C_{0})}{P(x)} $$ aplicando el teorema de Bayes, $$ P(C_{0}|x) = \frac{P(x|C_{0})P(C_{0})}{P(x|C_{0})P(C_{0})+P(x|C_{1})P(C_{1})} = \frac{1}{1+ \exp\left(-\log\frac{P(x|C_{0})}{P(x|C_{1})}-\log \frac{P(C_{0})}{P(C_{1})}\right)} $$ el denominador se expresa como $1+e^{\omega x}$ .

¿En qué condiciones se reduce la primera expresión a un término lineal? Si se considera la familia exponencial (una forma canónica para las distribuciones exponenciales como Gauß o Poisson), $$ P(x|C_{i}) = \exp \left(\frac{\theta_{i} x -b(\theta_{i})}{a(\phi)}+c(x,\phi)\right) $$ entonces terminas teniendo una forma lineal, $$ \log\frac{P(x|C_{0})}{P(x|C_{1})} = \left[ (\theta_{0}-\theta_{1})x - b(\theta_{0})+b(\theta_{1}) \right]/a(\phi) $$

Obsérvese que suponemos que ambas distribuciones pertenecen a la misma familia y tienen los mismos parámetros de dispersión. Pero, bajo ese supuesto, la regresión logística puede modelar las probabilidades de toda la familia de distribuciones exponenciales.

0voto

La clave es que el modelo de regresión logística es aditivo y el resultado z depende de la aditividad de los valores de los parámetros de peso, por ejemplo, :

z = w1x1 + w2x2

No hay interacción entre los valores de los parámetros de peso, nada como w1x1 * w2x2 o algo así, lo que haría que nuestro modelo no fuera lineal.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X