2 votos

Derivación de la distribución predictiva de Bishop "Reconocimiento de Patrones y Aprendizaje Automático"

Tengo una pregunta sobre una parte en la sección 4.5.2. Específicamente las conclusiones sobre la ecuación (4.148):

$$p(a)=\int \delta(a-\mathbf{w}^T\phi)q(\mathbf{w})\mathrm{d}\mathbf{w}.$$

Creo que el contexto no es tan importante, lo único relevante es que $a$ es la proyección de $w$ en $\phi$. Entonces, la parte que me desconcierta es esta

Podemos evaluar $p(a)$ notando que la función delta impone una restricción lineal en $w$ y así forma una distribución marginal a partir de la distribución conjunta $q(w)$ integrando todas las direcciones perpendiculares a $\phi$.

Realmente no veo cómo la restricción lineal en $w$ impone que todas las direcciones ortogonales a $\phi$ se integrarán. ¿Alguien puede explicarlo?

1voto

ChicksDigTrig Puntos 6

El teorema de sustitución de Lebesgue nos dice que para cualquier mapa $A: \mathbb{R}^n \to \mathbb{R}^n$ que es 'lo suficientemente' (difeomorfismo) tenemos

$$\int_{\mathbb{R}^n} f(x) dx = \int_{\mathbb{R}^n} f(A(x)) |\det \partial A(x)| dx$$

donde $\partial A$ es la matriz de Jacobi. Para un mapa lineal $A$ tenemos $\partial A(x) = M$ donde $M$ es la matriz representativa de $A$. Tomamos un vector fijo no nulo $\phi_1 \in \mathbb{R}^n$ y lo completamos a cualquier base ortonormal $\phi_1, \phi_2, ..., \phi_n$ (por ejemplo, usando el algoritmo de Gram-Schmidt: https://en.wikipedia.org/wiki/Gram%E2%80%93Schmidt_process), es decir, $$\langle \phi_i, \phi_j \rangle = \mathbf{1}_{i=j}$$ es decir, es uno si $i=j$ y cero en caso contrario.

Ahora consideramos la función $$f(x) = \delta(a - x^T\phi_1) g(x)$$ para cualquier otra función 'agradable' (es decir, medible para que todo el conjunto pueda ser integrado, tu función es 'lo suficientemente' agradable :-)) $g$. Consideramos el mapa lineal biyectivo $$A : \mathbb{R}^n \to \mathbb{R}^n, ~~~ A(e_i) = \phi_1$$ donde $e_i = (0, ..., 0, \underbrace{1}_{i-\text{ésima posición}}, 0, ..., 0)^T$ es el vector estándar regular en la posición $i$. Esta matriz tiene la matriz representativa $M$ donde los vectores $\phi_1, ..., \phi_n$ con respecto a la base estándar son las columnas. Tal matriz debe tener determinante $\pm 1$: Como los vectores son ortogonales entre sí y $M^T \cdot M$ contiene el producto escalar $\langle \phi_i, \phi_j \rangle$ como entrada $i, j$, $$M^T \cdot M=I$$ donde $I$ es la matriz identidad. Por lo tanto, $\det(M)^2 = \det(M^T \cdot M) = \det(I) = 1$.

Usando la sustitución anterior obtenemos $$\int_{\mathbb{R}^n} f(x) dx = \int_{\mathbb{R}^n} f(A(x)) |\det \partial A(x)| dx = \int_{\mathbb{R}^n} f(A(x)) |\pm 1| dx = \int_{\mathbb{R}^n} f(A(x)) dx$$

Ahora, ¿qué sucede cuando escribimos $A(x)$ en $f$? En primer lugar, nos damos cuenta de que $$x^T\phi_1 = \langle x, \phi_1 \rangle$$ y también $$A(x) = A(x_1, ..., x_n) = x_1\phi_1 + ... x_n \phi_n$$ para que $$A(x)^T \phi_1 = \langle x_1\phi_1 + ... x_n \phi_n, \phi_1 \rangle$$ pero como todos los $\phi_j$ son ortogonales a $\phi_1$ excepto $\phi_1$ mismo, obtenemos $$A(x)^T \phi_1 = \langle x_1\phi_1 + ... x_n \phi_n, \phi_1 \rangle = x_1$$ y consecuentemente \begin{align*} \int_{\mathbb{R}^n} f(A(x)) dx &= \int_{\mathbb{R}^n} \delta(a-x_1) g(x_1\phi_1 + ... + x_n \phi_n)dx\\ &= \int_{\mathbb{R}} ... \int_{\mathbb{R}} \delta(a-x_1) g(x_1\phi_1 + ... + x_n \phi_n) dx_1 dx_2 ... dx_n \\ \end{align*}

Ahora aquí viene un problema: El autor del libro al que te refieres parece pensar que $$\int_{\mathbb{R}} \mathbf{1}_{x_1 = a} \text{algunafunción}(x_1) dx_1 = \text{algunafunción}(a)$$

lo cual es una visión 'ingenua' de los físicos sobre el mundo (¡porque una integral formal sobre una función que es cero casi en todas partes es ciertamente cero!). Así que, repetido una vez más:

* ¡FORMALMENTE, ESTO ES UN DISPARATE, ES INCORRECTO! *

Sin embargo, si se interpreta correctamente, esto podría funcionar (aunque no estoy absolutamente seguro de este punto). Por lo general, la gente no toma la delta 'dura' $\mathbf{1}_{a=w^T\phi}$ sino algún núcleo 'suave' que permite valores diferentes a $a=w^T\phi$ pero solo cercanos y lo 'cercano' se acerca dentro de un límite o algo así. En cualquier caso: Si quieres hacerlo formalmente correctamente, entonces es más complicado.

Sin embargo, si seguimos el camino 'incorrecto' anterior, entonces obtenemos \begin{align*} \int_{\mathbb{R}^n} f(A(x)) dx &= \int_{\mathbb{R}^n} \delta(a-x_1) g(x_1\phi_1 + ... + x_n \phi_n)dx\\ &= \int_{\mathbb{R}} ... \int_{\mathbb{R}} \delta(a-x_1) g(x_1\phi_1 + ... + x_n \phi_n) dx_1 dx_2 ... dx_n \\ &= \int_{\mathbb{R}} ... \int_{\mathbb{R}} g(a\phi_1 + ... + x_n \phi_n) dx_2 ... dx_n \end{align*}

ves: Tomamos la función $g$ e integramos en todas las direcciones $\phi_2, \phi_3, ..., \phi_n$ que son ortogonales a $\phi_1$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X