Tengo el modelo de la regresión logística para multiclase, que está dada por
$$ P(Y=j|X^{(i)}) = \frac{\exp(\theta_j^TX^{(i)})}{1+ \sum_{m=1}^{k}\exp(\theta_m^T X^{(i)})} $$
donde k es el número de clases theta es el parámetro a ser estimado j es la j de la clase Xi es la capacitación de los datos
Bueno, una cosa yo no se es por qué el denominador de la parte $$ 1+ \sum_{m=1}^{k}\exp(\theta_m^T X^{(i)}) $$ normalizado el modelo. Quiero decir que hace que la probabilidad de permanecer entre 0 y 1.
Me refiero a que estoy acostumbrado a la regresión logística se
$$ P(Y=1|X^{(i)}) = 1/ (1 + \exp(-\theta^T X^{(i)})) $$
En realidad, estoy confundido con el nomalization cosa. En este caso, dado que es una función sigmoidea que nunca permite que el valor sea menor que 0 o mayor que 1. Pero estoy confundido en el multi clase de caso. ¿Por qué es así?
Este es mi referencia https://list.scms.waikato.ac.nz/pipermail/wekalist/2005-February/029738.html. Creo que debería haber sido el de la normalización de la $$ P(Y=j|X^{(i)}) = \frac{\exp(\theta_j^T X^{(i)})}{\sum_{m=1}^{k} \exp(\theta_m^T X^{(i)})} $$