3 votos

La ecuación (3.89) parece errónea en el libro de Bishop pattern recognition & machine learning

En Libro de Bishop sobre reconocimiento de patrones y aprendizaje automático Parece que he encontrado un grave error en una ecuación matemática; grave porque todos los argumentos posteriores se basan en él.

Es la ec. (3.89) de la página 168:

$$ 0 = \frac{M}{2\alpha} -\frac{1}{2}\mathbf{m}_N^T\mathbf{m}_N - \frac{1}{2}\sum_{i}{\frac{1}{\lambda_i + \alpha}} $$

La ecuación anterior se obtiene diferenciando la ec. (3.86) con respecto a $\alpha$ :

$$ \ln p(\mathbf{t}|\alpha, \beta)=(M/2)\ln \alpha +(N/2)\ln\beta -E(\mathbf{m}_N)-(1/2)\ln |\mathbf{A}|-(N/2)\ln(2\pi) $$

donde $$ E(\mathbf{m}_N) = (\beta/2)||\mathbf{t}-\mathbf{\Phi}\mathbf{m}_N||^2 +(\alpha/2)\mathbf{m}_N^T\mathbf{m}_N $$

Sin embargo, debido a que $\mathbf{m}_N$ depende de $\alpha$ no puede ser simplemente $\frac{\partial{E(\mathbf{m}_N)}}{\partial\alpha}= (1/2)\mathbf{m}_N^T\mathbf{m}_N$

El derivado correcto debería ser:

$$ \frac{\partial{E(\mathbf{m}_N)}}{\partial\alpha} = \{\beta\mathbf{\Phi}^T(\mathbf{\Phi}\mathbf{m}_N-\mathbf{t}) + \alpha\mathbf{m}_N\}^T\frac{\partial\mathbf{m}_N}{\partial\alpha}+\frac{1}{2}\mathbf{m}_N^T\mathbf{m}_N $$

¿O estoy cometiendo un grave error?

2voto

goyote Puntos 105

No está cometiendo un error, sólo necesita dar un paso más. En primer lugar, tenga en cuenta que $\mathbf{m}_{N}=\beta \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}$ con $\mathbf{A} = \alpha I + \beta \boldsymbol{\Phi}^{T}\boldsymbol{\Phi}$ . Teniendo esto en cuenta podemos empezar por trabajar su expresión a cabo

$$ \frac{\partial E\left(\mathbf{m}_{N}\right)}{\partial \alpha}=\left\{\beta \boldsymbol{\Phi}^{T}\left(\boldsymbol{\Phi} \mathbf{m}_{N}-\mathbf{t}\right)+\alpha \mathbf{m}_{N}\right\}^{T} \frac{\partial \mathbf{m}_{N}}{\partial \alpha}+\frac{1}{2} \mathbf{m}_{N}^{T} \mathbf{m}_{N} $$

Ahora, si miramos más de cerca, podemos encontrar eso:

$$ \left\{\beta \boldsymbol{\Phi}^{T}\left(\boldsymbol{\Phi} \mathbf{m}_{N}-\mathbf{t}\right)+\alpha \mathbf{m}_{N}\right\}^{T} \frac{\partial \mathbf{m}_{N}}{\partial \alpha} = \left\{ {\beta \boldsymbol{\Phi}^{T}\boldsymbol{\Phi}\mathbf{m}_{N} + \alpha \mathbf{m}_{N} - \beta \boldsymbol{\Phi}^{T}\mathbf{t}} \right\}\frac{\partial \mathbf{m}_{N}}{\partial \alpha} $$

que es lo mismo que $\left\{ {\mathbf{A}\mathbf{m}_{N} - \beta \boldsymbol{\Phi}^{T}\mathbf{t}} \right\}\frac{\partial \mathbf{m}_{N}}{\partial \alpha} = \left\{ \beta \mathbf{A}\mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} - \beta \boldsymbol{\Phi}^{T}\mathbf{t}\right\} \frac{\partial \mathbf{m}_{N}}{\partial \alpha}= 0$ . Esto significa que $\frac{\partial E\left(\mathbf{m}_{N}\right)}{\partial \alpha}=\frac{1}{2} \mathbf{m}_{N}^{T} \mathbf{m}_{N}$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X