En Bishop's Reconocimiento de patrones y aprendizaje automático Leo lo siguiente, justo después de la densidad de probabilidad $p(x\in(a,b))=\int_a^bp(x)\textrm{d}x$ se presentó:
Bajo un cambio de variable no lineal, una probabilidad de forma diferente a una función simple, debido al factor Jacobiano. En ejemplo, si consideramos un cambio de variables $x = g(y)$ , función $f(x)$ se convierte en $\tilde{f}(y) = f(g(y))$ . Consideremos ahora una densidad de probabilidad $p_x(x)$ que corresponde a una densidad $p_y(y)$ con respecto a la nueva variable $y$ , donde los sufces de hecho de que $p_x(x)$ y $p_y(y)$ son densidades diferentes. [ ] comprendidas en el intervalo $(x, x + \delta x)$ para valores pequeños de o $\delta x$ se transformará en el intervalo $(y, y + \delta y$ ) $p_x(x)\delta x \simeq p_y(y)y$ y, por tanto $p_y(y) = p_x(x) |\frac{dx}{dy}| = p_x(g(y)) | g\prime (y) |$ .
¿Qué es el factor jacobiano y qué significa exactamente todo esto (quizá cualitativamente)? Bishop dice que una consecuencia de esta propiedad es que el concepto de máximo de una densidad de probabilidad depende de la elección de la variable. ¿Qué significa esto?
A mí todo esto me viene un poco de sopetón (teniendo en cuenta que está en el capítulo de introducción). Agradecería alguna pista, ¡gracias!