En la regresión softmax, la probabilidad $P$ que un elemento forma parte de la clase $l$ viene dada por $$P(y^{(i)}=l | x^{(i)};\theta)=\frac{e^{\theta^Tx^{(i)}}}{\sum_{j=1}^k e^{\theta^Tx^{(j)}}}$$
He implementado la regresión softmax, pero parece que tengo problemas cuando el producto interno $\theta^Tx^{(i)}$ es grande (digamos, mayor que 30-50,) en cuyo caso incluso un flotador de 64 bits se desborda. ¿Cuál es el procedimiento recomendado para evitar este problema? He pensado en normalizar el vector de entrada $x^{(i)}$ tal que $x^{(i)\prime}=\frac{x^{(i)}}{|x^{(i)}|}$ pero eso podría hacer que la predicción fuera menos dinámica.