10 votos

La regresión logística para multiclase

Tengo el modelo de la regresión logística para multiclase, que está dada por

$$ P(Y=j|X^{(i)}) = \frac{\exp(\theta_j^TX^{(i)})}{1+ \sum_{m=1}^{k}\exp(\theta_m^T X^{(i)})} $$

donde k es el número de clases theta es el parámetro a ser estimado j es la j de la clase Xi es la capacitación de los datos

Bueno, una cosa yo no se es por qué el denominador de la parte $$ 1+ \sum_{m=1}^{k}\exp(\theta_m^T X^{(i)}) $$ normalizado el modelo. Quiero decir que hace que la probabilidad de permanecer entre 0 y 1.

Me refiero a que estoy acostumbrado a la regresión logística se

$$ P(Y=1|X^{(i)}) = 1/ (1 + \exp(-\theta^T X^{(i)})) $$

En realidad, estoy confundido con el nomalization cosa. En este caso, dado que es una función sigmoidea que nunca permite que el valor sea menor que 0 o mayor que 1. Pero estoy confundido en el multi clase de caso. ¿Por qué es así?

Este es mi referencia https://list.scms.waikato.ac.nz/pipermail/wekalist/2005-February/029738.html. Creo que debería haber sido el de la normalización de la $$ P(Y=j|X^{(i)}) = \frac{\exp(\theta_j^T X^{(i)})}{\sum_{m=1}^{k} \exp(\theta_m^T X^{(i)})} $$

4voto

James Sutherland Puntos 2033

Creo que estás confundido por un error tipográfico: Su $k$ debe $k-1$ en la primera ecuación. El 1 permite ver en la logística de casos son en realidad $\exp(0)$s, por ejemplo, cuando hay un $k$th $\theta=0$.

Suponga que $\theta_1 X=b$. Ahora note que usted puede obtener a partir de la última formulación de la regresión logística versión como $$ \frac{\exp(b)}{\exp(0)+\exp(b)} = \frac{\exp(0)}{\exp(0)+\exp(-b)} = \frac{1}{1+\exp(-b)} $$ Para varias clases, basta con sustituir el denominador en la primera de dos cantidades por una suma de más de exponentiated lineal predictores.

2voto

AlberT Puntos 6591

Su fórmula está mal (el límite superior de la suma). En la regresión logística con $K$ clases ($K> 2$) que, básicamente, crear $K-1$ regresión logística binaria modelos donde elegir uno de la clase como referencia o punto de pivote. Normalmente, el último de la clase $K$ es seleccionado como referencia. Por lo tanto, la probabilidad de que la clase de referencia puede ser calculada por la $$P(y_i = K | x_i) = 1 - \sum_{k=1}^{K-1} P(y_i = k | x_i) .$$ The general form of the probability is $$P(y_i = k | x_i) = \frac{\exp(\theta_i^T x_i)}{\sum_{i=1}^K \exp(\theta_i^T x_i)} .$$ As the $K$-th class is your reference $\theta_K = (0, \ldots, 0)^T$ and therefore $$\sum_{i=1}^K \exp(\theta_i^T x_i) = \exp(0) + \sum_{i=1}^{K-1} \exp(\theta_i^T x_i) = 1 + \sum_{i=1}^{K-1} \exp(\theta_i^T x_i) .$$ In the end you get the following formula for all $k < K$: $$ P(y_i = k | x_i) = \frac{\exp(\theta_i^T x_i)}{1 + \sum_{i=1}^{K-1} \exp(\theta_i^T x_i)} $$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X